山东大学舆情分析系统第二次更新报告

最新推荐文章于 2024-08-14 23:30:40 发布

山东大学與情分析系统项目博客

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量250

点赞数

文章标签： python github 其他

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55760388/article/details/115146995

版权

本次更新增加了四个新闻爬虫，包括央视、新浪、微博和知乎，信息总量增至1496条。采用pkuseg进行分词处理，并有多个开发者分享了他们的实现细节。系统框架开始搭建，主程序为SDU_POAS.py。更多详情可见GitHub代码仓库。

摘要由CSDN通过智能技术生成

山东大学舆情分析系统第二次更新报告

一、爬虫数目增加
二、基于pkuseg的分词系统
三、系统框架初步构建

一、爬虫数目增加

央视新闻爬虫v1.0
新浪新闻爬虫v1.0
微博爬虫v1.0
知乎爬虫v1.0

新增信息量：847条
目前信息总量：1496条
GitHub代码更新：https://github.com/STK425/crawl

二、基于pkuseg的分词系统

增加了信息处理用的基本结构体。
使用pkuseg包，实现了基本的分词功能，并加入了自定义词典、词性筛选（包含名词、动词、形容词、副词）、自定义停用词等功能。

停用词来源：

【简书】凌冰_lonny：https://www.jianshu.com/p/90e06152a7b4
【CSDN】闻人翎悬：https://blog.csdn.net/qq_39521554/article/details/79920468
【CSDN】_TFboy：https://blog.csdn.net/icurious/article/details/78670504
【和鲸社区】sosososo：https://www.kesci.com/mw/dataset/5e943b92e7ec38002d02c2d8/file

停用词去重

#打开多个文件混合的停用词文件
f = open("C:\\Users\\PC\\.pkuseg\\stopwords.txt", "r+"

最低0.47元/天解锁文章

山东大学與情分析系统项目博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
山东大学舆情分析系统第二次更新报告

山东大学舆情分析系统第二次更新报告一、爬虫数目增加二、基于pkuseg的分词系统三、系统框架初步构建一、爬虫数目增加央视新闻爬虫v1.0新浪新闻爬虫v1.0微博爬虫v1.0知乎爬虫v1.0新增信息量：847条目前信息总量：1496条GitHub代码更新：https://github.com/STK425/crawl二、基于pkuseg的分词系统增加了信息处理用的基本结构体。使用pkuseg包，实现了基本的分词功能，并加入了自定义词典、词性筛选（包含名词、动词、形容词、副词）、自
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。