基于网络爬虫的年鉴数据获取与查询系统设计与实现-计算机毕业设计源码35429

摘  要

本论文旨在设计并实现一个基于网络爬虫技术和Django框架的年鉴数据获取与查询系统。该系统旨在解决传统年鉴数据获取和查询的繁琐性和低效性,提供一种自动化、高效的数据获取与检索方案。系统采用Python语言编写,基于Django框架构建,利用网络爬虫技术实现年鉴数据的自动化获取,并提供用户友好的查询界面,以方便用户检索所需数据。

首先,论文对年鉴数据获取与查询的背景和现状进行了分析,指出了传统方法存在的问题和不足。随后,针对这些问题,提出了研究目标和需求,包括实现年鉴数据的自动化采集与存储,设计友好的查询界面,提供高效的数据检索和导出功能等。

在系统设计方面,本论文设计了系统的整体架构,包括数据采集模块、数据存储模块和查询检索模块。数据采集模块基于网络爬虫技术,实现了对年鉴数据的自动获取和持续更新。数据存储模块采用关系型数据库,对采集到的数据进行存储和管理。查询检索模块基于Django框架,实现了用户友好的数据查询界面和高效的数据检索功能。

随后,本论文详细阐述了系统的具体实现过程,包括网络爬虫的开发、数据库的设计与构建、Django应用的开发等。系统的实现过程中,针对数据获取、存储和检索等方面的技术难点,提出了相应的解决方案,确保系统的稳定性和可靠性。

最后,通过对系统的功能进行测试,验证了系统的稳定性和可靠性。同时,通过用户体验测试和实际应用,论文验证了系统的实用性和效率。经过实际测试和验证,系统不仅满足了年鉴数据获取与查询的需求,而且提高了数据获取的效率和便捷性,具有一定的应用和推广价值。

关键词:网络爬虫、Django框架、年鉴数据、数据获取、数据查询

Abstract

This paper aims to design and implement an yearbook data acquisition and query system based on web crawler technology and Django framework. This system aims to solve the complexity and inefficiency of traditional yearbook data acquisition and query, and provide an automated and efficient data acquisition and retrieval solution. The system is written in Python language and built on the Django framework. It utilizes web crawler technology to automate the acquisition of yearbook data and provides a user-friendly query interface to facilitate user retrieval of required data.

Firstly, the paper analyzes the background and current situation of obtaining and querying yearbook data, pointing out the problems and shortcomings of traditional methods. Subsequently, research objectives and requirements were proposed to address these issues, including achieving automated collection and storage of yearbook data, designing a user-friendly query interface, and providing efficient data retrieval and export functions.

In terms of system design, this paper has designed the overall architecture of the system, including a data collection module, a data storage module, and a query and retrieval module. The data collection module is based on web crawler technology, achieving automatic acquisition and continuous updating of yearbook data. The data storage module adopts a relational database to store and manage the collected data. The query and retrieval module is based on the Django framework, achieving a user-friendly data query interface and efficient data retrieval functions.

Subsequently, this paper elaborates on the specific implementation process of the system, including the development of web crawlers, database design and construction, and the development of Django applications. In the implementation process of the system, corresponding solutions were proposed to address the technical difficulties in data acquisition, storage, and retrieval, ensuring the stability and reliability of the system.

Finally, the stability and reliability of the system were verified by testing its functionality. Meanwhile, through user experience testing and practical application, the paper verifies the practicality and efficiency of the system. After practical testing and verification, the system not only meets the needs of yearbook data acquisition and query, but also improves the efficiency and convenience of data acquisition, and has certain application and promotion value.

Keywords: web crawler, Django framework, yearbook data, data acquisition, data query

目录

1 绪论

1.1 研究背景

1.2研究现状

2 基于网络爬虫的年鉴数据获取与查询系统分析

2.1 可行性分析

2.1.1 技术可行性分析

2.1.2 经济可行性分析

2.1.3 操作可行性分析

2.2 系统性能分析

2.3 系统功能需求分析

2.4 系统用例分析

2.5系统数据流程分析

3 基于网络爬虫的年鉴数据获取与查询系统总体设计

3.1 系统架构设计

3.2系统功能模块设计

3.3 数据库设计

3.3.1 数据库概念结构设计

3.2.2 数据库逻辑结构设计

4 基于网络爬虫的年鉴数据获取与查询系统详细设计与实现

4.1普通用户功能模块

4.1.1 用户注册界面

4.1.2 用户登录界面

4.1.3税收信息管理界面

4.1.4 城市建设管理界面

4.1.5 行政规划管理界面

4.2管理员功能模块

4.2.1后台首页界面

4.2.2系统用户管理界面

4.2.3 人口信息管理界面

4.2.4 学校数据管理界面

4.2.5 卫生人员管理界面

5系统测试

5.1 测试目的

5.2 系统测试用例

5.3 系统测试结果

结论

参考文献

致  谢

1 绪论

1.1 研究背景

随着互联网的普及和信息技术的快速发展,网络已经成为获取年鉴数据的重要来源。然而,由于数据分散在各个网站上,获取和整理这些数据需要耗费大量的人力和时间。为了解决这一问题,开发一个基于网络爬虫的年鉴数据获取与查询系统显得尤为重要。

当前,虽然有一些网络爬虫工具和框架可供选择,但它们在处理大规模、结构化数据的爬取和查询方面存在一定的局限性和不足。此外,许多现有的年鉴数据获取系统缺乏自动化和智能化的数据处理和分析功能,导致数据利用率低下。

基于以上背景,本文旨在设计和实现一个基于网络爬虫的年鉴数据获取与查询系统。该系统将充分利用Django框架的优势,实现高效、稳定的数据爬取和查询功能,同时为用户提供友好的交互界面和数据分析工具。通过该系统的实施,将有助于提高年鉴数据的获取效率,降低数据获取成本,为相关领域的研究和应用提供有力支持。

综上所述,基于网络爬虫的年鉴数据获取与查询系统的设计与实现具有重要的现实意义和应用价值。该研究将为相关领域的发展提供有益的参考和借鉴,促进年鉴数据的获取、处理和分析技术的进步。

1.2研究现状

近年来,随着网络爬虫技术的不断发展,越来越多的学者和企业开始关注年鉴数据的获取与查询系统的设计与实现。在学术研究方面,网络爬虫技术已成为计算机科学领域的一个研究热点,许多学者针对不同的数据源和需求进行了深入研究。在技术实现方面,Django等Web开发框架的广泛应用为年鉴数据获取与查询系统的实现提供了便利。

目前,已有的年鉴数据获取与查询系统主要存在以下问题:一是数据爬取的效率和准确性有待提高;二是缺乏对大规模数据的处理和分析能力;三是系统界面不够友好,用户体验有待提升。针对这些问题,研究者们正在不断探索新的技术和方法,以期提高年鉴数据获取与查询系统的性能和实用性。

此外,随着人工智能技术的不断发展,深度学习、自然语言处理等技术在年鉴数据获取与查询系统中的应用也逐渐受到关注。这些技术的应用将有助于提高数据爬取的准确性和效率,同时为用户提供更加智能化的数据查询和分析服务。

综上所述,基于网络爬虫(django框架)的年鉴数据获取与查询系统的设计与实现已经取得了一定的研究成果和应用进展。但仍然存在一些问题和挑战,需要进一步的研究和创新。

2 基于网络爬虫的年鉴数据获取与查询系统分析

2.1 可行性分析

软件开发的过程中系统的可行性分析是必不可少的,可行性的研究就是评估问题是否能得到解决并且是要以最少的时间和最少的代价来解决。为实现上面的目标还要必须考虑到解决这些问题的方法的优点和缺点,还要考虑到实现了这些系统规模的开发带来的经济效益。这里可以用技术的可行性,操作的可行性,经济的可行性对我们的系统进行可行性的研究。基于网络爬虫的年鉴数据获取与查询系统的可行性分析如下所示:

2.1.1 技术可行性分析

基于网络爬虫的年鉴数据获取与查询系统采用的是Python编程语言并基于Django框架,数据库部分采用的是当前流行的MySQL数据库,基于网络爬虫的年鉴数据获取与查询系统中的所有数据资源都存储在MySQL数据库中,本系统多处采用了Ajax的异步操作,Ajax技术可以对用户指定部分的数据进行局部刷新,不仅减少了服务器对页面的解析而且极大增加了用户的体验度。本系统的环境配置也较为简单,因为用的是Pycharm编辑器,而Pycharm里面有自带的Tomcat服务器和Python环境,因此不需要我们在重新配置。

2.1.2 经济可行性分析

基于网络爬虫的年鉴数据获取与查询系统是在Python和MySQL的环境中运行的,而系统的成本也只是主要分布在软件的开发和维护上。但如果系统上线投入使用之后,不仅可以方便人们,还节省了用户的时间和精力,而且还极大限度的方便了运营者,减少了运营者的工作强度。基于网络爬虫的年鉴数据获取与查询系统其实也不太复杂,在开发的时候经济支出也不大,在开发系统时时间用的也不多,从时间的优势和对经济利益方面产生的好处远超过维护和管理的成本,所以开发此系统是可行合适的。

2.1.3 操作可行性分析

本系统是基于浏览器和服务器的基于网络爬虫的年鉴数据获取与查询系统,系统开发完成之后用户只需要在浏览器中输入正确的URL地址即可进行访问。本系统的页面简单明了,在没有操作指导的情况下也可以进行操作,无论是系统管理员还是普通用户在页面中所有的操作都是在浏览器中完成的,因此只要电脑在有网络的情况下,打开浏览器都能操作。而且在使用之前也不用进行相关的环境配置,因此本系统方便、简单、易于使用,所以该系统是容易并且可操作的。

2.2 系统性能分析

系统的性能方面主要是从系统的安全性、存储性、可靠性、易学性、稳定性等方面进行分析:

(1)安全性:系统的安全问题是开发者首先要考虑的,如果系统存在安全隐患,可能使得用户个人信息被泄露,给用户带来困扰,造成损失。

(2)储存性:因为是面向众多用户的年鉴数据获取与查询系统,使用的用户会比较多,而且登录后要添加大量的年鉴数据,那就需要一个强大的数据库来进行数据的存储,对数据库的要求是非常严格的,本系统选用的是MYSQL数据库,MYSQL的运行速度很快,执行命令的速度也非常快,而且体积小。 

(3)可靠性:可靠性指的是用户在进行年鉴数据信息添加、查询以及管理的时候,能够按照用户的指示进行显示信息,如果用户点击查询税收信息,显示出来的是其他信息,那就违背用户的初衷。

(4)易学性:系统的开发面向对象学历不尽相同,所有在开发的时候要考虑系统操作应该简单,不需要进行任何学习、培训,只能上网的用户就可以操作。

(5)稳定性:系统在运行方面要很稳定,系统的界面、字体要清楚,没有失真现象,给用户以良好的体验。

(6)可拓展性:本基于网络爬虫的年鉴数据获取与查询系统的功能还有待完善,因此系统要有很好的拓展性,方便后期功能更新维护。

2.3 系统功能需求分析

年鉴数据获取与查询系统中采用了Python的Django框架进行开发,在数据库上选择MYSQL,在功能上年鉴数据获取与查询系统划分为了普通用户模块和管理员模块两大部分,旨在为管理员和普通用户提供全面的数据管理和查询功能。

管理员功能:

(1)后台首页:管理员可以查看人口信息统计、税收信息统计、城市建设统计、交通事故统计、学校数据统计等数据统计图。

(2)系统用户管理:管理员可以对系统中的其他管理员、普通用户进行管理,包括添加、删除、修改等操作。

(3)人口信息管理:管理员可以对人口数据进行增删改查操作。

(4)税收信息管理:管理员可以对税收数据进行增删改查操作。

(5)城市建设管理:管理员可以对城市建设数据进行增删改查操作。

(6)交通事故管理:管理员可以对交通事故数据进行增删改查操作。

(7)学校数据管理:管理员可以对学校数据进行增删改查操作。

(8)卫生人员管理:管理员可以对卫生人员数据进行增删改查操作。

(9)电影情况管理:管理员可以管理电影的相关数据,如电影数量、票房等。

(10)行政规划管理:管理员可以对行政规划数据进行管理,如行政区划调整、城市规划等。

普通用户功能:

(1)税收信息管理:查看税收相关的数据,但无法进行修改操作。

(2)城市建设管理:查看城市建设的相关数据,但无法进行修改操作。

(3)交通事故管理:查看交通事故的相关数据,但无法进行修改操作。

(4)学校数据管理:查看学校的相关数据,但无法进行修改操作。

(5)卫生人员管理:查看卫生人员的相关数据,但无法进行修改操作。

(6)电影情况管理:查看电影的相关数据,但无法进行修改操作。

(7)行政规划管理:查看行政规划的相关数据,但无法进行修改操作。

通过上述功能设计,该基于网络爬虫的年鉴数据获取与查询系统能够满足管理员和普通用户对数据的不同需求,提供全面的数据管理和查询服务,从而为相关领域的研究和应用提供有力支持。

2.4 系统用例分析

系统的用例展示的是系统功能与用户之间的关系,通过用例的方式能够直观的展示出来,本基于网络爬虫的年鉴数据获取与查询系统的完整UML用例图分别是图2-1、图2-2。

图2-1 基于网络爬虫的年鉴数据获取与查询系统普通用户角色用例图

图2-2 基于网络爬虫的年鉴数据获取与查询系统管理员角色用例图

2.5系统数据流程分析

与强调控制逻辑的程序流程图不同,它更关心的是整个系统中数据的具体流动以及数据的加工处理的整个客观过程,是对数据规格的说明。也正因如此,系统数据流图作为系统结构化分析方法中极为重要的一种描述工具备受青睐。

年鉴数据获取与查询系统的顶层数据流如下图所示。

图2-3系统顶层数据流图

系统顶层数据流:外部实体为用户,第一个流程为登录验证,用户信息表返回密码验证,是否正确,正确则登录系统,错误则反馈信息,登录系统后,根据不同用户的功能选择,来读写数据库。

系统底层数据流:外部实体为管理员和普通用户,数据流分别有管理员和普通用户流向系统数据流程,数据表提供数据支持,来完成逻辑操作。

图2-4 底层数据流图

3 基于网络爬虫的年鉴数据获取与查询系统总体设计

本章主要讨论的内容包括基于网络爬虫的年鉴数据获取与查询系统的系统架构设计、功能模块设计、数据库系统设计。

3.1 系统架构设计

由于本系统在逻辑事务处理方面对数据库的操作比较频繁所以系统在底层连接数据库封装之后相当于一个连接数据库的工具DB UTIL,这样使用起来会更加方便而且这样进行封装还可以降低系统中代码的冗余,当我们需要连接和使用数据库时只需要调用这个工具里面的一个方法就可以了。而且通过封装可以把对数据库的操作独立起来,当需要连接不同种类的数据库时只需要加以修改就可以达到目的。

DAO层本来并无这个类,它只是Python中MVC构造里的一个model概念,主要就是里面的一些方法,而这些方法就是用来访问数据库的方法。我们在软件开发时DAO层我们一般都放接口和接口的实现类,用于来规范实现类的我们叫它接口,实现类重点用于对数据库的操纵。

MVC是一种系统研发的关键模型,M是Model模型,它是系统内部关键程序运行的核心,主要进行对数据库的各种操作。视图View是V也叫做视图,主要的作用是对一些数据进行显示。控制器Controller 是C执行从View的视图层来读取数据,然后控制用户的输入。

系统架构如下图所示。

图3-1系统架构图

3.2系统功能模块设计

本基于网络爬虫的年鉴数据获取与查询系统是一个集信息查询、添加、管理为一体的系统,在功能上实现了管理员和普通用户两部分的功能,根据第三章的系统功能分析,得出本基于网络爬虫的年鉴数据获取与查询系统的功能模块图,如图3-1所示。

图3-2 基于网络爬虫的年鉴数据获取与查询系统功能模块图

3.3 数据库设计

3.3.1 数据库概念结构设计

在数据库概念模型设计的时候,一般都采用E-R实体图进行展示,在实体图中可以展示出数据库表中的所有字段名称,本基于网络爬虫的年鉴数据获取与查询系统中的主要的数据库E-R模型图列举如下图所示。

图3-3人口信息E-R关系图

图3-4 税收信息E-R关系图

图3-5 城市建设信息E-R关系图

图3-6 交通事故信息E-R关系图

图3-7 学校数据信息E-R关系图

图3-7 卫生人员信息E-R关系图

图3-8 电影情况信息E-R关系图

基于网络爬虫的年鉴数据获取与查询系统的总E-R图如下:

图3-9 基于网络爬虫的年鉴数据获取与查询系统总E-R关系图

3.2.2 数据库逻辑结构设计

通过上一小节中基于网络爬虫的年鉴数据获取与查询系统中总E-R关系图上得出一共需要创建很多个数据表。在此我主要罗列几个主要的数据库表结构设计。

表access_token (登陆访问时长)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

token_id

int

10

0

N

Y

临时访问牌ID

2

token

varchar

64

0

Y

N

临时访问牌

3

info

text

65535

0

Y

N

4

maxage

int

10

0

N

N

2

最大寿命:默认2小时

5

create_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

创建时间:

6

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间:

7

user_id

int

10

0

N

N

0

用户编号:

表administrative_division (行政区划)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

administrative_division_id

int

10

0

N

Y

行政区划ID

2

statistical_year

varchar

64

0

Y

N

统计年份

3

number_of_prefecture_level_divisions

varchar

64

0

Y

N

地级区划数

4

number_of_prefecture_level_cities

varchar

64

0

Y

N

地级市数

5

number_of_county_level_divisions

varchar

64

0

Y

N

县级区划数

6

number_of_municipal_districts

varchar

64

0

Y

N

市辖区数

7

county_level_cities

varchar

64

0

Y

N

县级市数

8

counties

varchar

64

0

Y

N

县数

9

number_of_autonomous_counties

varchar

64

0

Y

N

自治县数

10

number_of_township_divisions

varchar

64

0

Y

N

乡镇区划数

11

number_of_towns

varchar

64

0

Y

N

镇数

12

number_of_townships

varchar

64

0

Y

N

乡数

13

street_office

varchar

64

0

Y

N

街道办事处

14

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

15

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表auth (用户权限管理)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

auth_id

int

10

0

N

Y

授权ID:

2

user_group

varchar

64

0

Y

N

用户组:

3

mod_name

varchar

64

0

Y

N

模块名:

4

table_name

varchar

64

0

Y

N

表名:

5

page_title

varchar

255

0

Y

N

页面标题:

6

path

varchar

255

0

Y

N

路由路径:

7

position

varchar

32

0

Y

N

位置:

8

mode

varchar

32

0

N

N

_blank

跳转方式:

9

add

tinyint

3

0

N

N

1

是否可增加:

10

del

tinyint

3

0

N

N

1

是否可删除:

11

set

tinyint

3

0

N

N

1

是否可修改:

12

get

tinyint

3

0

N

N

1

是否可查看:

13

field_add

text

65535

0

Y

N

添加字段:

14

field_set

text

65535

0

Y

N

修改字段:

15

field_get

text

65535

0

Y

N

查询字段:

16

table_nav_name

varchar

500

0

Y

N

跨表导航名称:

17

table_nav

varchar

500

0

Y

N

跨表导航:

18

option

text

65535

0

Y

N

配置:

19

create_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

创建时间:

20

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间:

表film_situation (电影情况)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

film_situation_id

int

10

0

N

Y

电影情况ID

2

statistical_year

varchar

64

0

Y

N

统计年份

3

number_of_film_story_studios

varchar

64

0

Y

N

电影故事厂数

4

number_of_produced_films

varchar

64

0

Y

N

生产影片数

5

number_of_animated_films

varchar

64

0

Y

N

动画片数

6

number_of_technological_films

varchar

64

0

Y

N

科技影片数

7

record_the_number_of_films

varchar

64

0

Y

N

记录影片数

8

number_of_special_films

varchar

64

0

Y

N

特种影片数

9

number_of_cinemas

varchar

64

0

Y

N

电影院数量

10

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

11

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表health_personnel (卫生人员)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

health_personnel_id

int

10

0

N

Y

卫生人员ID

2

statistical_year

varchar

64

0

Y

N

统计年份

3

number_of_health_personnel

varchar

64

0

Y

N

卫生人员数

4

number_of_technical_personnel

varchar

64

0

Y

N

技术人员数

5

number_of_assistant_physicians

varchar

64

0

Y

N

助理医师数

6

number_of_practicing_physicians

varchar

64

0

Y

N

执业医师数

7

number_of_registered_nurses

varchar

64

0

Y

N

注册护士数

8

number_of_pharmacists

varchar

64

0

Y

N

药师数

9

rural_doctor_health_center

varchar

64

0

Y

N

乡村医生卫生院

10

other_technical_personnel

varchar

64

0

Y

N

其他技术人员

11

number_of_management_personnel

varchar

64

0

Y

N

管理人员数

12

workforce_skilled_personnel

varchar

64

0

Y

N

工勤技能人员

13

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

14

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表hits (用户点击)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

hits_id

int

10

0

N

Y

点赞ID:

2

user_id

int

10

0

N

N

0

点赞人:

3

create_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

创建时间:

4

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间:

5

source_table

varchar

255

0

Y

N

来源表:

6

source_field

varchar

255

0

Y

N

来源字段:

7

source_id

int

10

0

N

N

0

来源ID:

表population_information (人口信息)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

population_information_id

int

10

0

N

Y

人口信息ID

2

year_of_upbringing

varchar

64

0

Y

N

抚养年份

3

total_population

varchar

64

0

Y

N

年末总人口

4

low_age

varchar

64

0

Y

N

零至十四岁

5

fifteen_to_sixty_four

varchar

64

0

Y

N

十五至六十四

6

advanced_age

varchar

64

0

Y

N

六十五及以上

7

total_dependency_ratio

varchar

64

0

Y

N

总抚养比

8

childrens_dependency_ratio

varchar

64

0

Y

N

少儿抚养比

9

old_age_dependency_ratio

varchar

64

0

Y

N

老年抚养比

10

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

11

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表regular_users (普通用户)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

regular_users_id

int

10

0

N

Y

普通用户ID

2

user_name

varchar

64

0

Y

N

用户姓名

3

user_gender

varchar

64

0

Y

N

用户性别

4

user_age

varchar

64

0

Y

N

用户年龄

5

examine_state

varchar

16

0

N

N

已通过

审核状态

6

user_id

int

10

0

N

N

0

用户ID

7

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

8

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表school_data (学校数据)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

school_data_id

int

10

0

N

Y

学校数据ID

2

statistical_year

varchar

64

0

Y

N

统计年份

3

ordinary_higher

varchar

64

0

Y

N

普通高等

4

ordinary_high_schools

varchar

64

0

Y

N

普通中学

5

ordinary_high_school

varchar

64

0

Y

N

普通高中

6

junior_high_school

varchar

64

0

Y

N

初中学校

7

vocational_high_school

varchar

64

0

Y

N

职业中学

8

ordinary_primary_school

varchar

64

0

Y

N

普通小学

9

special_education

varchar

64

0

Y

N

特殊教育

10

preschool_education

varchar

64

0

Y

N

学前教育

11

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

12

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表sensitive_vocabulary (敏感词汇)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

sensitive_vocabulary_id

int

10

0

N

Y

敏感词汇ID

2

sensitive_vocabulary

varchar

64

0

Y

N

敏感词汇

3

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

4

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表tax_information (税收信息)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

tax_information_id

int

10

0

N

Y

税收信息ID

2

tax_year

varchar

64

0

Y

N

税收年份

3

various_taxes

varchar

64

0

Y

N

各项税收

4

domestic_value_added_tax

varchar

64

0

Y

N

国内增值税

5

business_tax

varchar

64

0

Y

N

营业税

6

domestic_excise_tax

varchar

64

0

Y

N

国内消费税

7

tariff

varchar

64

0

Y

N

关税

8

personal_income_tax

varchar

64

0

Y

N

个人所得税

9

corporate_tax

varchar

64

0

Y

N

企业岁的税

10

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

11

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表traffic_accident (交通事故)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

traffic_accident_id

int

10

0

N

Y

交通事故ID

2

statistical_year

varchar

64

0

Y

N

统计年份

3

total_number_of_accidents

varchar

64

0

Y

N

事故总数

4

number_of_major_accidents

varchar

64

0

Y

N

重大事故发生数

5

major_accidents

varchar

64

0

Y

N

特大事故

6

number_of_motor_vehicle_incidents

varchar

64

0

Y

N

机动车发生数

7

number_of_car_incidents

varchar

64

0

Y

N

汽车发生数

8

number_of_motorcycle_incidents

varchar

64

0

Y

N

摩托车发生数

9

tractor_occurrence_rate

varchar

64

0

Y

N

拖拉机发生数

10

number_of_non_motor_vehicles

varchar

64

0

Y

N

非机动车数

11

number_of_bicycle_occurrences

varchar

64

0

Y

N

自行车发生数

12

number_of_pedestrian_rides

varchar

64

0

Y

N

行人乘车发生数

13

other_traffic_incidents

varchar

64

0

Y

N

其他交通发生数

14

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

15

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表upload (文件上传)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

upload_id

int

10

0

N

Y

上传ID

2

name

varchar

64

0

Y

N

文件名

3

path

varchar

255

0

Y

N

访问路径

4

file

varchar

255

0

Y

N

文件路径

5

display

varchar

255

0

Y

N

显示顺序

6

father_id

int

10

0

Y

N

0

父级ID

7

dir

varchar

255

0

Y

N

文件夹

8

type

varchar

32

0

Y

N

文件类型

表urban_construction (城市建设)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

urban_construction_id

int

10

0

N

Y

城市建设ID

2

year_of_construction

varchar

64

0

Y

N

建设年份

3

urban_area

varchar

64

0

Y

N

城区面积

4

built_up_area

varchar

64

0

Y

N

建成区面积

5

urban_land_area

varchar

64

0

Y

N

城市用地面积

6

land_acquisition_area

varchar

64

0

Y

N

征用土地面积

7

urban_population_density

varchar

64

0

Y

N

城市人口密度

8

create_time

datetime

19

0

N

N

CURRENT_TIMESTAMP

创建时间

9

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间

表user (用户账户:用于保存用户登录信息)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

user_id

mediumint

8

0

N

Y

用户ID:[0,8388607]用户获取其他与用户相关的数据

2

state

smallint

5

0

N

N

1

账户状态:[0,10](1可用|2异常|3已冻结|4已注销)

3

user_group

varchar

32

0

Y

N

所在用户组:[0,32767]决定用户身份和权限

4

login_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

上次登录时间:

5

phone

varchar

11

0

Y

N

手机号码:[0,11]用户的手机号码,用于找回密码时或登录时

6

phone_state

smallint

5

0

N

N

0

手机认证:[0,1](0未认证|1审核中|2已认证)

7

username

varchar

16

0

N

N

用户名:[0,16]用户登录时所用的账户名称

8

nickname

varchar

16

0

Y

N

昵称:[0,16]

9

password

varchar

64

0

N

N

密码:[0,32]用户登录所需的密码,由6-16位数字或英文组成

10

email

varchar

64

0

Y

N

邮箱:[0,64]用户的邮箱,用于找回密码时或登录时

11

email_state

smallint

5

0

N

N

0

邮箱认证:[0,1](0未认证|1审核中|2已认证)

12

avatar

varchar

255

0

Y

N

头像地址:[0,255]

13

open_id

varchar

255

0

Y

N

针对获取用户信息字段

14

create_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

创建时间:

表user_group (用户组:用于用户前端身份和鉴权)

编号

名称

数据类型

长度

小数位

允许空值

主键

默认值

说明

1

group_id

mediumint

8

0

N

Y

用户组ID:[0,8388607]

2

display

smallint

5

0

N

N

100

显示顺序:[0,1000]

3

name

varchar

16

0

N

N

名称:[0,16]

4

description

varchar

255

0

Y

N

描述:[0,255]描述该用户组的特点或权限范围

5

source_table

varchar

255

0

Y

N

来源表:

6

source_field

varchar

255

0

Y

N

来源字段:

7

source_id

int

10

0

N

N

0

来源ID:

8

register

smallint

5

0

Y

N

0

注册位置:

9

create_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

创建时间:

10

update_time

timestamp

19

0

N

N

CURRENT_TIMESTAMP

更新时间:

4 基于网络爬虫的年鉴数据获取与查询系统详细设计与实现

4.1普通用户功能模块

4.1.1 用户注册界面

用户需要进行注册才能进入系统进行相关的操作。其用户注册界面展示如下图4-1所示。

图4-1 用户注册界面图

4.1.2 用户登录界面

当用户注册完成后就可以登录了,输入用户名+密码,通过滑动图片验证后,点击“登录”按钮进行登录,登录界面如下图4-2所示。

图4-2用户登录界面图

4.1.3税收信息管理界面

用户点击“税收信息管理”菜单会显示税收信息列表,支持通过输入税收年份进行查询,用户可以查看税收详情数据,但无法进行修改操作。界面如下图4-3所示。

图4-3税收信息管理界面图

4.1.4 城市建设管理界面

用户点击“城市建设管理”菜单会显示城市建设列表,支持通过输入建设年份进行查询,用户可以查看城市建设的相关数据,但无法进行修改操作。界面如下图4-4所示。

图4-4城市建设管理界面图

4.1.5 行政规划管理界面

用户点击“行政规划管理”菜单会显示行政规划列表,支持通过输入统计年份进行查询,查看行政规划的相关数据,但无法进行修改操作。界面如下图4-5所示。

图4-5行政规划管理界面图

4.2管理员功能模块

4.2.1后台首页界面

管理员登录系统后,可以在首页查看人口信息统计、税收信息统计、城市建设统计、交通事故统计、学校数据统计等数据统计图。界面如下图所示。

图4-6后台首页界面图

4.2.2系统用户管理界面

管理员点击“系统用户”菜单可以对系统中存在的用户进行管理,包含了管理员用户、普通用户。界面如下图所示。

图4-7普通用户管理界面图

4.2.3 人口信息管理界面

管理员点击“人口信息管理”菜单会显示出人口信息列表、人口信息添加两个子菜单,支持通过输入抚养年份进行查询,如果想要添加新的人口信息,点击“人口信息添加”菜单,输入相关信息,点击“提交”按钮就可以添加了,同时可以选择某一条人口信息,点击“删除”进行删除,还可进行下载导入文档、导入文档等操作。界面如下图所示。

图4-8人口信息列表界面图

图4-9 人口信息添加界面图

4.2.4 学校数据管理界面

管理员点击“学校数据管理”菜单会显示出学校数据列表、学校数据添加两个子菜单,支持通过输入统计年份进行查询,如果想要添加新的学校数据,点击“学校数据添加”菜单,输入相关信息,点击“提交”按钮就可以添加了,同时可以选择某一条学校数据,点击“删除”进行删除,还可进行下载导入文档、导入文档等操作。界面如下图所示。

图4-10学校数据列表界面图

4.2.5 卫生人员管理界面

管理员点击“卫生人员管理”菜单会显示出卫生人员列表、卫生人员添加两个子菜单,支持通过输入统计年份进行查询,如果想要添加新的卫生人员,点击“卫生人员添加”菜单,输入相关信息,点击“提交”按钮就可以添加了,同时可以选择某一条卫生人员,点击“删除”进行删除,还可进行下载导入文档、导入文档等操作。界面如下图所示。

图4-11卫生人员列表界面图

5系统测试

5.1 测试目的

系统测试的目的就是为了找错,从开发好的系统当中通过各种手段、方法进行找错,看看系统是不是存在乱码的现象,是不是用户功能混乱,通过各种纠错,保证系统能够正常的运行,在测试中我们通过采用的是黑盒测试和白盒测试两种测试方法,通过黑盒测试,我们可以了解系统各项功能是不是能够实现,界面是不是美观,操作是不是方便,通过白盒测试,我们可以了解到某一条的具体编程代码是不是运行路径正确,能不能达到预期,从错误中不断完善,想尽一切办法找到系统中存在的错误,然后找到出错的具体原因,然后对系统进行修改,达到我们所要实现的功能,进而提高了系统的各种性能(安全性、可靠性、稳定性等)。

系统测试不是程序开发完以后才开始的,他贯穿了开发的整个过程,在开发的过程中我们都会对实现的代码进行一点一点的测试,从而完成系统,再对系统进行整体测试,保证每个用户在使用的时候都能做到系统运行流程,满足信息增删改查等主要功能。

5.2 系统测试用例

登录模块的功能测试:

表5.1 登录模块功能测试表

测试名称

测试功能

操作过程

预期结果

测试结果

登录模块测试

登录成功的情况

管理员可以通过浏览器进入到基于网络爬虫的年鉴数据获取与查询系统后台的登录界面,输入用户名:admin和密码admin后,点击“登录”按钮。

成功登录到管理员管理的界面

正确

登录模块测试

登录失败的情况

管理员可以通过浏览器进入到基于网络爬虫的年鉴数据获取与查询系统的后台登录界面,输入用户名:admin和密码111后,点击“登录”按钮。

系统提示“用户名和密码不匹配”

正确

人口信息添加功能测试:

表5.2 人口信息添加功能测试表

测试名称

测试功能

操作过程

预期结果

测试结果

 人口信息添加模块测试

人口信息添加成功的情况

在“人口信息管理”菜单中选择“人口信息添加”,输入人口信息相关信息,输入正确的信息后,点击“提交”按钮。

提示添加成功

正确

人口信息添加模块测试

人口信息添加失败的情况

在“人口信息管理”菜单中选择“人口信息添加”,不输入抚养年份,其他信息正常填写后,点击“提交”按钮。

提示“添加失败,抚养年份不能为空”

正确

查看税务信息功能模块测试:

表5.3 查看税务信息功能测试表

测试名称

测试功能

操作过程

预期结果

测试结果

查看税务信息功能测试

税务信息显示成功的情况

用户点击“税务信息管理”进入税务信息列表,任性一条税务信息,查看详情 

税务信息显示成功

正确

5.3 系统测试结果

通过编写基于网络爬虫的年鉴数据获取与查询系统的测试用例,已经检测完毕登录、人口信息添加、税务信息查看,通过这3大模块为基于网络爬虫的年鉴数据获取与查询系统的后期推广运营提供了强力的技术支撑。

结论

在开发本基于网络爬虫的年鉴数据获取与查询系统之前,首先通过网上查询现有的年鉴数据获取与查询系统功能、线下通过问卷调查的方式,了解用户对年鉴数据采集方面的具体需求,对系统的开发背景以及年鉴数据获取与查询系统的研究现状进行研究,设计了本基于网络爬虫的年鉴数据获取与查询系统具体实现的功能;确定好功能后,第二步就是开发工具的选择,在设计本基于网络爬虫的年鉴数据获取与查询系统的时候,采用了现下比较流程的Pythong语言、Django框架,数据的存储方面采用的是开源的MYSQL。接下来就是对系统需求的分析,在文中主要通过对基于网络爬虫的年鉴数据获取与查询系统进行可行性、性能、功能、用例四个方面进行分析,确定了本基于网络爬虫的年鉴数据获取与查询系统的具体功能,功能确定后就是对系统的设计以及数据库等方面,最终完成系统的开发,对系统进行测试总结。

在开发本基于网络爬虫的年鉴数据获取与查询系统的过程中我成长了很多,学习到了很多书本上没有的知识,目前系统虽然已经完成,但是还有许多地方需要改进,比如界面布局方面,代码的编写方面,都可以进一步完善,由于自己专业知识的浅薄,系统做的并不是十分完美,以后我会不断进行学习,对系统进行完善,希望有机会能够投入到学校的使用当中,给同学们提供便利。 

参考文献

[1]何毅平,黄媛,湛茂溪等.基于网络爬虫的招聘信息可视化系统设计与实现[J].长江工程职业技术学院学报,2023,40(03):24-28.DOI:10.14079/j.cnki.cn42-1745/tv.2023.03.006

[2]赵淑君,刘伟,江凤月.基于大数据技术的网络舆情感知系统的分析与实现[J].南阳理工学院学报,2023,15(04):50-55.DOI:10.16827/j.cnki.41-1404/z.2023.04.010

[3]张雁涔.基于网络爬虫技术的企业大数据采集系统设计[J].信息与电脑(理论版),2023,35(12):154-156.

[4]李瑾.网络爬虫刑法规制研究[D].中国矿业大学,2023.DOI:10.27623/d.cnki.gzkyu.2023.001416

[5]余丽红,杨董涛,李弋峰等.基于Python的电子元件信息爬取与数据可视化系统设计[J].无线互联科技,2023,20(09):77-79.

[6]杨玉鹏.基于大数据的开源情报采集系统设计[D].天津农学院,2023.DOI:10.27717/d.cnki.gtjnx.2023.000041

[7]郭婺,郭建,张劲松等.基于Python的网络爬虫的设计与实现[J].信息记录材料,2023,24(04):159-162.DOI:10.16009/j.cnki.cn13-1295/tq.2023.04.025

[8]张明杰,王妮,李怡.基于网络爬虫的舆情情感分析系统设计与实现[J].电脑编程技巧与维护,2023,(03):171-173.DOI:10.16184/j.cnki.comprg.2023.03.009

[9]李强.基于Python的新闻聚合系统网络爬虫研究[J].软件,2023,44(01):168-170.

[10]贾洪琛,李继宝,郝明亮.基于网络爬虫的消防情报采集及知识管理系统[C]//中国消防协会.2022中国消防协会科学技术年会论文集.应急管理部天津消防研究所;,2022:5.DOI:10.26914/c.cnkihy.2022.069370

[11]吴君胜.基于网络爬虫技术的开放大学智慧图书馆信息资源系统的设计与研究[J].广州广播电视大学学报,2022,22(06):58-62+110.

[12]王婵,唐亚修,张慧娥.基于Python的招聘信息爬虫系统的设计与实现[J].电子制作,2022,30(24):50-53.DOI:10.16589/j.cnki.cn11-3571/tn.2022.24.012

[13]白天瑰.基于网络爬虫技术的大数据采集系统设计[J].电子技术与软件工程,2022,(21):251-254.

[14]胡云峰,陈皖芬.基于Python及Requests模块的岗位信息网络爬虫程序的分析与实现[J].文山学院学报,2022,35(05):81-83.

[15]文雪巍,邢婷,李鹏等.基于网络爬虫疫情数据分析及可视化系统的设计与实现[J].黑龙江工程学院学报,2022,36(05):32-37.DOI:10.19352/j.cnki.issn1671-4679.2022.05.006

[16]燕跃豪,宋建辉,鲍薇等.基于网络爬虫的电力营商环境大数据信息检索技术研究[J].电气时代,2022,(10):34-36.

[17]Google Inc.; Patent Issued for Anchor Tag Indexing In A Web Crawler System (USPTO 10,210,256)[J].Internet Business Newsweekly,2019,

[18]Hu Y ,Qiu Q ,Yu X .Design and implementation of the patent topical web crawler system[C]//[出版者不详],2018:

[19]Jo S ,Seo Y ,Baik D .A study of improving URL duplication problem for distributed web crawling system[J].한국정보과학회 학술발표논문집,2015,251-253.

[20]Zhong S ,Deng Z .A Web Crawler System Design Based on Distributed Technology[J].Journal of Networks,2011,6(12):1682-1689.

致  谢

“时光荏苒,岁月如梭”,四年的大学生涯在这里即将结束,我也即将离开我的母校,踏入社会,在这离开之际,借此机会,我首选要感谢的就是我的老师们,在这四年的学习、生活中,他们给了我很多的帮助,在我消极的时候鼓励我,帮助我走出困境,学习遇到困难的时候,每位老师都孜孜不倦;其次我要感谢我的指导老师,在开发本基于网络爬虫的年鉴数据获取与查询系统的时候遇到了很多困难,比如前期调查不仔细,功能模块设计的有问题,导师通过细心的沟通、讲解,慢慢让我对系统有了更进一步的了解,在系统开发框架的选择上,导师给我推荐了Django,让我在系统的设计上更加省力,在这期间我对这两个框架还不够熟悉,都是导师耐心的讲解、指导,无论多晚,导师有多忙,总是第一时间为我答疑解惑,可以说没有导师的帮助,我是没有办法完成这个基于网络爬虫的年鉴数据获取与查询系统的,在这里我还要感谢我的同学们,他们无论在学习还是在生活中都给予了我很大的帮助,我相信我们的友谊会天长地久。

最后向所有关心我、帮助我的老师及同学们表示衷心的感谢!祝愿我的母校越来越辉煌,祝愿老师们桃李满天下,祝愿同学们前程似锦!

免费领取项目源码,请关注❥点赞收藏并私信博主,谢谢~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值