文本挖掘在网络舆情信息分析中的应用
一、网络舆情信息的作用:
1.桥梁作用:有助于了解情况、掌握社情民意
2.耳目作用:有助于全面系统而又简明扼要的掌握某一种时期或与某一专题有关的社会舆情状况
3.决策依据:舆情分析有助于决策者做出正确的决策,在短时间内掌握大量的信息,提高决策效率
4.预警作用:从已知的社会舆情状况入手,探索其未来发展趋势,对有关做出评价和预测,提出建议
5.导向作用:进行舆论引导
二、文本挖掘的主要作用
文本分类主要采用k近邻、贝叶斯、支持向量机,是有监督的学习;
文本聚类是无监督学习
三、文本挖掘在网络舆情信息分析中的应用
1.对网络舆情进行描述
2.对网络舆情的关联性进行分析
追溯舆情信息来源、自动发现突发事件的舆情信息流主题、预警不良信息、辅助决策
3.对网络舆情信息的真实性进行判断分析
对传播主体的意图及态度倾向进行推论
如果在文本挖掘结果信息中发现多个主体对同一条信息发表的不同评论,能够体现其思路的文本结构一致、语气用词相似,而且IP地址也大致相同,那就有可能存在不良意图和人为操纵
4.对网络舆情的产生原因进行分析
5.预测和推论网络舆情信息的产生和变化趋势
四、网络舆情信息文本挖掘的模型与步骤
1.准备阶段
获取网络热点新闻、突发事件报道,数据筛选并输入到热点词库中,用一下形式存放:
(keyword, T, link, ti, tr, W)
keyword表示关键词;T表示获取该关键词的时间;link表示获取该关键词的网页URL(可以是多个);ti表示各网页中含有该关键词的相关文本的发布时间;tr为二值型字段,表示出现该关键词的相关文本是否转载;W表示网页来源可靠性权值。
当tr字段为转载时,W的值取该转载文章的初始来源网页的权值,W的计算可以根据 Alexa 网络排名、Pagerank 算法以及专家评价的综合加权而定。
2.处理阶段
对文本进行规范化预处理,将html文档半结构化形成xml文档,并将处理后的特征项存入文档特征库中。
3.分析阶段
利用合适的文本挖掘算法进行网络舆情信息的挖掘分析,利用可视化工具生成直观的视图,最后由舆情分析人员形成网络舆情分析报告
五、网络舆情信息文本挖掘实例
采用 TextAnalyst v2.3文本挖掘软件进行分析