优捷信达解密舆情监测:不仅分析语义,更关注词组结构

网络评价和信息的正负面识别,需要通过计算机提取具有情感倾向的相关词语,这叫做“特征提取”(feature extraction)。简单来说,计算机判别正负面,就是通过先提取句子中的正负面词语,进而分析这些词语的分布来判断文章的正负面倾向。

 

基于优捷信达科技的研究调查,目前业内主要特征提取技术有基于语义和词的出现及频率的两种模式。本文将重点介绍后一种模式,并讨论这种模式的优缺点。

基于词条出现及频率规律的特征提取模式比基于语义的模式出现更晚。这种模式不分析情感关键词所代表的含义,而将重点放在了评估高频率词语的情感极性。尽管这种基于统计的方法并不符合直觉,但由于其在处理包含复杂句法结构甚至表达结构的句子时的优良表现,得到了业界越来越多的关注。以下将重点介绍两种典型方法。

 1. 比较词语的出现及频率的方法

提取情感词条的出现特征,最直接的方式有两种,第一种是观察情感词条是否出现,第二种是计算情感词条出现的频率。频率的方式在信息检索的领域中已经得到成功的运用,具体方法是使用预先选定词条的出现次数作为特征向量的值。与频率的方式不同,第一种方式将情感词条是否“出现”直接作为特征,也就是将频率简化为了一个是与非的二进制问题,如果一个词条出现了,与它对应的特征矢量就记录为1,否则则记为0。Bo Pang和Lilian Lee做实验在电影评论的方面比较了这两种方法,结果显示第一种“是否出现”的方法效果优于第二种“计算频率”的方法。

这个意料之外的结果其产生的原因可能可以归结为主题分析(如谷歌通过关键词查找相关文章)和情感分析(如舆情口碑监测)的根本区别。主题分析的td-idf方法的成功从一个角度表明了一个文档的主题会以基本相同的形式在网络上大量存在,因此通过搜索相关的句子或短语就可以搜索到相应的内容。但是情感分析却不能用这种方式来实现,因为人们很少以雷同的内容表达主观意见。例如,人们在表达“苹果手机好”这样一个意思的时候,并不会简单地重复这一句话,而是会说苹果手机为什么好,因为什么原因感觉到苹果手机好。简而言之,对于苹果手机的各种正面评价,“苹果手机好”这一句子直接出现的概率很低。

2. 基于词的子序列与依赖子序列(即词组结构及相互关系)的方法

2005年,Shotaro Matsumoto等人提出了一种提取高频词序列和高频句子结构做为特征向量以进行情感分析的机器学习的方法:

第一步,通过Prefixspan(一个开源的api)挖掘所有高频词的子序列。越多的句子中包含一个词序列,这个词序列被赋予的频率就越高,而高于预设阈值的词语就会被采用。Prefixspan从单字词开始,每次迭代新增一个字的宽度,直到当前语句里的所有词组都被遍历。

第二步,通过FREQT挖掘所有的高频句子结构。越多的句子中包含某个句子结构,这个句子结构被赋予的频率就越高。换句话说,FREQT与PrefixSpan使用相同的方式提取一个句子里所有可能的子句结构的依赖关系。

作为评测,这一方法(使用16种特性组合)被应用于两组影评的分析,这两组影评与Pang-Lee在2002年试验时采用的一样。在分析中,基于“单词+双词词组+词干依赖关系”的特征模版组合对于两个影评都是最优方案。而通过使用支持向量机(SVM),第一个影评的准确率从Pang—Lee(2002)达到的82.9%(一元模型算法)提升到了88.3%,第二个评论的准确率从87.1%(Pang-Lee,一元模型算法)提升为93.7%。

更高的精度证明了这些基于统计方法的特征提取的可行性和重要性。与其它方法相比,使用高频词或依赖子序列子句依赖关系特征的方式具有显著的优势。特征本身可能会包含复杂的句式信息,如双重否定。而这种方法把我们从解析复杂的句子结构的工作中解放了出来。而解析复杂的句式结构可能在相当长的时间里,还将会一直是一个难以解决的问题。

这种基于词语出现模式的特征本身就包含了句子结构的信息,因此给了我们征服复杂句式的可能性。如今,包括优捷信达科技在内的许多研究机构及其人员正在使用类似的方法来应对复杂的句式结构。一个例子是Shilpa Arora, Elijah Mayfield, Carolyn Penstein-Rosé and Eric Nyberg 2010年开发的一个用以挖掘具有代表性话题层面子序列的子图挖掘方法,这个方法通过结合初始特征,可以逐步生成新的更复杂的复合特征。

前不久,优捷信达科技在网络上发现一篇关于舆情监测的文章比较火,说瑞士科学家发明新数学算法,可找网络谣言源头,并可以用于监测谣言发起者和恐怖袭击幕后的智囊。以下为文章全文:

据新华社电,瑞士洛桑联邦工学院10日说,研究人员发明一种新的数学算法,能够找出网络谣言发起人。

佩德罗.平托在一个科研团队里研究算法。他告诉德新社记者:“使用我们的方法,仅通过‘监听’有限数量的成员,就能找到在网络传播的所有事物源头。”例如,调查人员查看15人 至20人的消 息后,可以找出经社交网站传递至500名网络用户的一则谣言最初从谁开始。

经事后分析,平托的团队识别出隐藏在美国“9.11”恐怖袭击幕后的智囊。平托说:“借助公开发表的消息,重新构建 ‘9.11’恐怖网络下交换的信息,系统给出3个潜在嫌疑人的名字。根据官方调查,其中一人确为恐怖袭击策划者。按洛桑联邦工学院说法,这一算法同样可以追踪电脑病毒起源。
 

作为国内领先的舆情监测企业,优捷信达公司研究员阅读并分析瑞士科学论文全文(阅读论文全文:请点击),发现其中的算法诀窍,由于目前客观条件的限制无法解决这几个瓶颈,所以瑞士科学家所发明的算法也无法实现找到源头的效果。

首先,分析这个算法的意义,这个应用不是找出是谁第一个发出的消息(因为发出时间不代表知道的时间),而在消息已经满天飞的时候找出真正这一条消息对应的源头。

其次,其主要问题是其假设网络本身是己知的,比如在微博上,谁是谁的粉丝都知道(原文中“The graph G is assumed to be known, at least approximately”)。而这个假设在实际中显然是行不通的,由于现实微博中粉丝相互关注情况异常复杂,更不要说现实中可能有一些“超级节点”,比如说姚晨,几乎所有人都是其粉丝。这样的话,假设网络本身是已知的这一前提条件无法得到满足。

第三,在这个假设下,瑞士科学教提出新算法所做的工作主要就是把原来“傻算”(论文中(1)式)的复杂度给降低了,而他提出的新算法也还是一个计算机计算的过程。如上所述,目前这个算法还不可能有实际应用。其给出的例子是一个500人的网络,还有一张不算大的地图。在实际应用中,这些图至少要大一千倍以上,而且结构要复杂得多。因此,即便是能满足前提条件,单就算法本身也无法实现现实世界中谣言的海量计算。

以这一理论的提出到实际应用,可能还有很多路要走。目前通过单一算法来实现寻找网络谣言源头还不太现实,只有采用专业的信息处理软件,通过收集大量信息,进行专业化处理,根据综合各方因素,才能评估出信息源头。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值