山东大学與情分析系统项目博客-CSDN博客

原创山东大学舆情分析系统项目结题总结

项目结题总结一、项目背景二、技术要点三、功能介绍1、服务器端（1）启动服务器一、项目背景对于一所高校来说一个好的风评有着十分重要的作用，拥有一个良好的口碑，能吸引更多的生源、引进更多的人才，学校的综合素质能力也会因此提升，因此我们小组选择了《山东大学舆情分析系统》这一题目，通过搜集百度新闻、央视新闻、今日头条、齐鲁网、新浪、网易新闻、微博、知乎等网站的有关信息，对搜集到的文本信息所进行的分词、统计处理，将结果绘制成可视化的热度词条、情感倾向变化图，并实时展示在网站上，以此来更直观的了解山大的实时风评。

2021-06-09 20:56:39 1261 4

原创山东大学舆情分析系统第八次更新报告——5月18日

第八次更新报告——5月18日总结对于第七次更新报告中“正在进行的工作”热点预测算法编写：对于该算法，我们仍在研究利用深度学习的方法进行预测，如果无法及时完成，将考虑利用短时间内的变化率和长时间的周期变化来预测。实时爬取功能完善：实时爬取功能正在与分词模块做信息对接图表生成算法编写基本完成其他模块的对接功能对接基本完成，信息对接正在进行中其他模块对不同格式的数据的处理基本完成目前大部分模块都已完成，正进入模块测试和集成测试中，期间出现了不少bug，确实困扰了我们很久，但在我们多

2021-05-18 21:03:13 184

原创山东大学舆情分析系统第七次更新报告——5月11日

第七次更新报告——5月11日总结已完成的工作目前，系统各模块均已基本完成，已完成模块如下：关键词提取算法数据统计算法编写热词相关性分析算法编写网页一级爬取网页二级爬取网页设计Django后端搭建用户管理员系统设计剩余的少许模块也已进入收尾阶段。网页前端和Django后端已完成对接。用户管理员系统和Django后端已完成对接。关键词提取算法、网页一级爬取模块、网页二级爬取模块已可以完成对不同格式的数据的处理正在进行的工作热点预测算法编写实时爬取功能完善图表生成算法编写

2021-05-11 22:30:47 149

原创山东大学舆情分析系统第六次更新报告——4月20日

第六次更新报告——4月20日一、爬虫模块二、web服务器三、网页模块一、爬虫模块这周我们对爬虫的二级爬取做了一些优化，增加了停用词库来剔除无关词汇以减少脏数据的影响，同时增加了网易新闻和央视新闻的爬虫。在这周我们将完成对于网页新闻的爬取，接下来将摸索实验数据的对接，将数据传递给数据库，并且开始对于论坛数据的爬取。二、web服务器在尝试了使用python socket库直接编写web服务器后端后，我们发现我们难以做到与vue前端良好的交互，所以我们在本周尝试使用了Django框架。在此基础上，我们成

2021-04-20 21:57:19 182

原创山东大学舆情分析系统第五次更新报告——4月13日

第五次更新报告——4月6日一、爬虫模块二、数据库模块三、web服务器四、网站模块一、爬虫模块这周尝试编写爬虫的一般模板，但是在编写的过程中遇到了一些困难，例如不同网页链接标签并不相同，并且网页可能具有反爬虫机制，所以在开发时进展比较缓慢。因而这周打算将爬虫的一般模块暂时放缓，编写其他网页论坛的爬虫的时候记录其网页结构，最后再进行编写。所以这周将对主要的5个网页新闻进行爬取，下一周将进行论坛进行爬虫编写。二、数据库模块增加了对用户信息的读写增加了对单条热词数据（包含出现总次数、30日内每日出现

2021-04-13 21:38:10 241

原创山东大学舆情分析系统第四次更新报告——4月6日

第四次更新报告——4月6日一、爬虫模块一级爬虫更新二级爬虫更新二、算法模块三、其他一、爬虫模块一级爬虫更新新增对搜狗搜索引擎的爬取所有一级爬虫增加对信息数据来源的爬取二级爬虫更新本周基本完成了scrapy爬虫框架的开发，增强了百度新闻爬虫的功能，使其可以对网页完成二级爬取。后续将以此模板，探索通用性爬虫。用于存储数据的数据结构：class SpiderBaiduItem(scrapy.Item): title = scrapy.Field() url = scrapy.

2021-04-06 23:23:07 211

原创山东大学舆情分析系统第三次更新报告——3月30日

第三次更新报告——3月30日一、爬虫模块二、算法模块三、用户管理员系统模块四、网页模块一、爬虫模块Scrapy爬虫框架开发：本次爬虫框架将对百度新闻进行数据爬取，并且进行网页的二级爬取，在一级网页中我们将要爬取新闻的标题，链接，来源和时间戳，并在此基础上进行网页二级爬取，获取该网页链接内的所有链接的标题，后续将会把框架运用到其他爬虫上，并增加对给定网址的爬取功能。目前Scrapy爬虫框架的开发，在xpath路径的选取和二级网页的跳转遇到了一些问题，预计下次更新报告发布前完成对问题的解决二、算法模

2021-03-30 22:43:39 262

原创山东大学舆情分析系统第二次更新报告

山东大学舆情分析系统第二次更新报告一、爬虫数目增加二、基于pkuseg的分词系统三、系统框架初步构建一、爬虫数目增加央视新闻爬虫v1.0新浪新闻爬虫v1.0微博爬虫v1.0知乎爬虫v1.0新增信息量：847条目前信息总量：1496条GitHub代码更新：https://github.com/STK425/crawl二、基于pkuseg的分词系统增加了信息处理用的基本结构体。使用pkuseg包，实现了基本的分词功能，并加入了自定义词典、词性筛选（包含名词、动词、形容词、副词）、自

2021-03-23 23:26:54 242

原创项目完成的爬虫及已爬取数据展示

项目完成的爬虫及已爬取数据展示已完成部分：百度新闻爬虫v1.0百度贴吧爬虫v1.0今日头条爬虫v1.0已爬取数据：百度新闻：175条百度贴吧：365条今日头条：109条总计：649条（数据量仍在扩充中）gtihub地址：https://github.com/STK425/crawl...

2021-03-16 22:41:01 316

原创山东大学舆情分析系统项目里程碑计划表

山东大学舆情分析系统项目里程碑计划表第二、三周（2021/3/8 - 2021/3/21）：爬虫编写第四周（2021/3/22 - 2021/3/28）：2信息爬取第五周（2021/3/29 - 2021/4/4）：3信息整理第六周（2021/4/4 - 2021/4/14）：4词库建立第七、八周（2021/4/12 - 2021/4/25）：5关键词匹配算法编写第九周（2021/4/26 - 2021/5/2）：6信息分析结果整合第十周（2021/5/3 - 2021/5/9）：

2021-03-08 22:31:57 259

m0_55760388的博客