摘 要 网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度,也反映了公众所表现出的各类情感价值和思想动态。基于Python-
Snownlp经过数据采集,数据预处理,建立向量模型,数据挖掘与分析对新闻评论中用户观点与情绪进行研究,有效實现舆情分析和监控。
关键词 Python Snownlp;网络爬虫;聚类分析;情感分析
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)219-0104-02
步入“互联网+”与大数据时代,网络媒体已经成为舆论新格局的重要组成部分,人们更倾向于通过互联网关注社会中的热点问题,并通过网络媒体来发表个人意见和看法。
文章从凤凰新闻、新浪新闻、环球网网页入手,使用Python的Scrapy框架来访问网页URL,解析页面评论信息,将抓取的评论信息存储到Mysql数据库中。抽取数据并进行预处理清洗,调用Python开源的分词模块jieba分词对文本进行分词,去除停用词、敏感词,建立相应的语料库。使用TF-
IDF算法将语料库中的词语转化成词矩阵模型,使用K-
Means算法对评论数据进行聚类分析挖掘,采用Python专为中文文本设计的Snownlp模块对数据进行情感分析。
1 数据采集
采用网络爬虫技术进行数据获取,选取了影响比较大的“造谣伊利董事长失联事件”这一热点事件的新闻评论作为数据集,使用网络爬虫技术从Web端抓取新闻评论数据集。首先,通过访问URL地址获取Web服务器端返回得数据,并解析数据抓取资源。请求模块是向网页URL发送请求,并获取网页源代码。解析模块是对网页源代码的解析,去除源代码中的JS脚本标签,CSS代码、HTML标签等内容,并将解析后的数据下载下来