舆情功能点特性

言论主题自动聚类(系统利用数据挖掘引擎的智能,自动将事先还不知道的主题与言论进行聚类)

网上信息的膨胀使得在网络上寻找需要的信息越发困难,如何对蕴含在海量信息中的有效信息进行有效的挖掘和利用是一个尚待解决的问题。对文本按照其主题进行聚类是解决这一问题的一项基础性工作,对于主题的自动发现机制、特征提取、主题检索及建模等具有重要意义,为本系统中主题(话题)的自动识别,网帖等的自动归类,主题的追踪和发展趋势预测等打下基础。

主题聚类的思想是根据文本的主题来划分类别,将具有相同主题的文本归为一类,如何对主题进行描述是一个主要问题。主题(包含一系列紧密相关事件)应可被一个主题元素集合表示,比如参与者,位置,时间,属性,行为等。采用一些文本表示方法对文本进行表示以后(比如近年来应用最多效果较好的向量空间模型VSM),按照文本之间的相似度使用聚类算法(KCM,层次聚类等)进行聚类,将相似度大的文本放入同一簇。将聚类结果按照其影响力如簇集大小,紧密程度等进行排序,最终确定主题。

 

网络舆情关联分析(系统利用数据挖掘引擎的规则关联学习功能,自动分析不同主题文本中各个特征之间的潜在关联关系,从而识别出舆情要素之间隐含的关系,例如南京彭宇撞人案与天津许云鹤撞人案之间有非常密切的关联关系,后者常被称为天津版“彭宇”案;又如,网络炒作事件的出现,往往伴随着网络水军的幕后操作)

网络舆情的关联规则挖掘主要采用关联规则分析方法,以发现网络舆情在所存在的各种关联模式。这些关联模式可以用于分析网络舆情的背景关联性,如背景相似的不同热点事件,例如南京彭宇撞人案和天津许云鹤撞人案,两个事件可互为舆情发展诱因,准确发现其关联性可使得客户对舆情发展规模等有正确判断;时空关联性,如经历“7.5”事件的乌鲁木齐市的8月份的针刺事件,9月大游行,掌握舆情的内在联系,有针对性处理,可以有效缓解和消除民众的负面情绪;舆情虚实状况,网络炒作事件往往伴随着网络水军的幕后操作,并非真正民意,有效识别这些信息,可减少虚假舆情引起的预警。

关联规则的挖掘工作分为两个步骤,首先是从数据集合中发现所有满足给定的最小支持度的频繁项目集(对于一个项目集,若其支持度大于给定的阈值,则称其为频繁项目集);第二步是在频繁项目集的基础上生成所有满足给定可信度的关联规则。其中第一步由于数据量巨大,对于算法效率和扩展性要求较高,通常在关联规则挖掘中会产生大量的关联模式,而这些关联模式是否能够用于网络舆情的时空关联性、背景关联性和舆情虚实状况分析,还需要对其进行关联模式识别,分析这些不同的关联模式在网络舆情中所具有的确切含义。

 

网络舆情特征估值(舆情各要素的取值分析,要素包括:波及范围、关注度、热度等)

突发事件在横向上传播可以分为开始阶段、扩散阶段、爆发阶段和衰退阶段,在每个阶段,都有着不同的特点。通过对网络舆情特征估值,收集舆情波及范围、关注度、热度等要素的变化,可以评估舆情发展阶段,采取合适的应对措施进行处理,并可作为舆情发展预测预警的依据;而舆情本身特征如发布者影响力和主题危害等则是评估舆情威胁程度的重要指标。

网络舆情监测指标评价体系如下:

1. 舆情发布者指标,包括影响力(浏览次数,发帖数,回复数,转载率等)、活跃度(发帖数,回帖数)、价值观(语义信息)等。

2. 舆情要素指标,包括信息主题类别(生存危机,公共安全,腐败,分配差距,时政,法制等)、关注度、信息主题危害度。

3. 舆情受众指标,包括负面指数(回帖总数,负面回帖总数,比例)、受众影响力、参与频度(点击、评论同一舆情的总次数)、网络分布度(点击者IP)。

4. 舆情传播指标,包括媒体影响力(总流量,日流量,点击率),传播方式(门户网站,BBS,博客,微博)、扩散度(报道次数)。

5. 区域和谐度指标,包括贫富差距(基尼系数,农村城市收入比,财富集中度)、社会保障(社会治安,医保覆盖率,养老保险覆盖率,工险覆盖率)、宗教信仰(宗教冲突与民族矛盾等)。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值