本章是在进行需求分析后对系统的总体设计和实现方案进行一个确定,主要是指电影票房系统的数据爬取子模块、数据清洗子模块以及数据储存子模块。
4.1 体系结构设计
随着软件工程的不断进步和规范以及面向对象编程思想的应用,原本的双层架构已经不能满足开发者的效率上需求,因为在代码上的封装、移植、扩展、复用等操作使得双层架构难以招架因此才有三层架构的出现,问题迎刃而解。三层指的是表示层、组建层、数据访问层。三层是指逻辑上的三层。通过引入中间层,将复杂的商业逻辑从传统的双层结构应用中分离出来,并提供了可伸缩、易于访问、易于管理的方法,可以将多种应用服务分别封装部署于应用服务器,同时增强了应用程序可用性、安全性、封装复用性、可扩展性和可移植性,使用户在管理上所花费的时间最小化,从而实现了便捷、高效、安全、稳定的企业级系统应用。
表示层:从用户收集信息、将用户信息发送到业务服务层做处理、从业务服务层接收处理结果、将结构显示给用户
组建层:从界面层接收输入、与数据层交互执行已涉及的业务、将处理结果发送到界面层
数据访问层:数据存储、数据获取、数据维护
4.2 电影票房统计系统整体架构
数据的爬取与清洗子模块
第一步是通过URL对缓存的页面进行分页爬取,然后通过对缓存页面的爬取对象科学分析后得到真实数据,同时在对真实数据进行清洗后,就得到了有效数据,最后保存文件就完成了数据的储存。
数据存储子模块
通过时间戳爬取到电影相关信息及数据,清洗后得到有效数据,然后储存为csv文件。