山东大学舆情分析系统第二次更新报告
一、爬虫数目增加
- 央视新闻爬虫v1.0
- 新浪新闻爬虫v1.0
- 微博爬虫v1.0
- 知乎爬虫v1.0
新增信息量:847条
目前信息总量:1496条
GitHub代码更新:https://github.com/STK425/crawl
二、基于pkuseg的分词系统
增加了信息处理用的基本结构体。使用pkuseg包,实现了基本的分词功能,并加入了自定义词典、词性筛选(包含名词、动词、形容词、副词)、自定义停用词等功能。
停用词来源:
- 【简书】 凌冰_lonny:https://www.jianshu.com/p/90e06152a7b4
- 【CSDN】闻人翎悬:https://blog.csdn.net/qq_39521554/article/details/79920468
- 【CSDN】_TFboy:https://blog.csdn.net/icurious/article/details/78670504
- 【和鲸社区】sosososo:https://www.kesci.com/mw/dataset/5e943b92e7ec38002d02c2d8/file
停用词去重
#打开多个文件混合的停用词文件
f = open("C:\\Users\\PC\\.pkuseg\\stopwords.txt", "r+"