python 评论分析_基于Python-Snownlp的新闻评论数据分析

摘 要 网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度,也反映了公众所表现出的各类情感价值和思想动态。基于Python-
Snownlp经过数据采集,数据预处理,建立向量模型,数据挖掘与分析对新闻评论中用户观点与情绪进行研究,有效實现舆情分析和监控。

关键词 Python Snownlp;网络爬虫;聚类分析;情感分析

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)219-0104-02

步入“互联网+”与大数据时代,网络媒体已经成为舆论新格局的重要组成部分,人们更倾向于通过互联网关注社会中的热点问题,并通过网络媒体来发表个人意见和看法。

文章从凤凰新闻、新浪新闻、环球网网页入手,使用Python的Scrapy框架来访问网页URL,解析页面评论信息,将抓取的评论信息存储到Mysql数据库中。抽取数据并进行预处理清洗,调用Python开源的分词模块jieba分词对文本进行分词,去除停用词、敏感词,建立相应的语料库。使用TF-
IDF算法将语料库中的词语转化成词矩阵模型,使用K-
Means算法对评论数据进行聚类分析挖掘,采用Python专为中文文本设计的Snownlp模块对数据进行情感分析。

1 数据采集

采用网络爬虫技术进行数据获取,选取了影响比较大的“造谣伊利董事长失联事件”这一热点事件的新闻评论作为数据集,使用网络爬虫技术从Web端抓取新闻评论数据集。首先,通过访问URL地址获取Web服务器端返回得数据,并解析数据抓取资源。请求模块是向网页URL发送请求,并获取网页源代码。解析模块是对网页源代码的解析,去除源代码中的JS脚本标签,CSS代码、HTML标签等内容,并将解析后的数据下载下来

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值