目录
1、项目简介
本系统采用网络爬虫技术采集校园内的热点话题,并通过词云技术、Django技术和Flask框架等技术,将采集到的数据加以分析,并以可视化的方式呈现。
本文详细介绍了系统所采用的技术框架,对系统实现流程和系统平台架构进行了详细论述。在系统平台架构的基础上,重点研究校园热点数据爬虫设计和数据库模型设计。实现了大学生热点话题采集功能、热点话题信息分析功能、校园热点信息话题可视化管理功能和校园热点信息话题可视化看板功能。
2、设计说明
根据该课题,该系统主要包括三个模块:网络爬虫模块、数据可视化模块和管理模块。以下是该系统的功能需求分析:
网络爬虫模块
(1)采集热点话题:能够根据预先设定的爬取规则,从互联网上自动采集三亚学院大学生关注的热点话题,并将其存储到数据库中。
(2)热点话题筛选:能够根据用户的设定,对爬取到的热点话题进行筛选,例如按时间、话题热度等进行排序,并展示给用户。
数据可视化模块
(1)话题热度可视化:能够将爬取到的热点话题按时间进行统计,生成可视化的热度趋势图,以便用户了解话题的热度变化趋势。
(2)话题分类可视化:能够对爬取到的热点话题进行分类,并生成可视化的话题分类图,以便用户了解话题的分类情况。
管理模块
(1)用户管理:能够对用户进行注册、登录、修改密码等基本操作,保障系统的安全性和稳定性。
(2)话题管理:能够对爬取到的热点话题进行管理,包括添加、删除、编辑等操作,以便用户管理系统中的数据。
(3)系统配置管理:能够对系统进行配置管理,包括设置爬虫规则、设置分类标准、修改系统参数等操作,以便用户自定义系统。
图2-1 热点话题分析系统总体功能结构图
图4-2 校园贴吧文本获取模块流程图
图4-3 微博文本预处理模块流程图
图4-4 系统实现总体流程图
表5-1 系统开发环境和工具
项目 | 系统环境及版本 |
硬件环境 | Windows 64 位操作系统 |
开发语言 | Python |
Web服务器 | 本地 |
数据库 | MySql |
开发工具 | Pycharm |
项目架构 | Django+Scrapy |
3、实现效果
本系统使用集成开发工具Pycharm 进行开发,由于 Pycharm 中Tomcat配置详细资料有很多,不做详细赘述,本文主要Flask框架配置。首先需要在项目中中引入各框架以及数据库连接。
最后,上述框 架的配置文件的路径还需要在web. xml中进行配置说明。
图3-1 校园热点数据管理界面
图3-2 校园热点信息采集管理界面
图3-3 校园热点信息话题条形图
图3-3 校园热点信息话题可视化饼状图
图3-4 词云分析图
4、源码获取及技术文档展示
技术文档