计算机科学的社会价值,科学网—计算机情感分析的价值 - 王晓光的博文

情感分析是近几年来计算机科学领域的新兴热点,就本质上来说它还是一个文本挖掘研究。

目前,就我看到的情感分析往往是针对某一个特定的评价对象,利用社会性媒体上(BBS、论坛、博客、新闻、SNS)的文本信息进行积极、消极和中立性评价,并给出一个综合性的评价结果,常常以三者的比例出现。如果做的更细一点就是将评论人进行按地区、年龄、工作等人口属性进行分类,或者按照事物属性进行更详细更多维度的评价,这样的挖掘结果无疑符合营销管理的需求。

可问题是,这样的比例式结果到底有多大用处,是否有实用价值,我的疑问来自四个方面,或者说情感分析要走向实用还需过四关:

第一关:  情感分析通常是基于海量数据的,这似乎可以保障评价的客观性,问题是单个用户对某一特定事物的评价常常是依赖于不完全信息的,情报学的透视原理告诉我们海量数据比一定数量的抽样数据提供更多信息。事实上,我们对某一事物的评价完全可以通过少量关键信息获得,所以海量数据的采集是否有必要呢?如果你说海量数据采集成本不大,甚至完全可以忽略,好,这一关可以通过,对于不那么智能的计算机来说,数据多点总比数据少点更好,输出的结果更令人可信。

第二关:  情感分析的数据多来自社会性媒体,如BBS和论坛,这样的数据源内有很多噪音和虚假信息,很多利益相关人会开展社会性媒体营销,就是利用人工大规模发布虚假信息,也就是很多“托”,这些“托”们发表的评论数据显然会干扰最后的挖掘结果,并使其失去意义。这一关并不好过,在使用数据以前,你必须进行数据清洗,去除那些虚假信息,这并不容易。事实上,有些帖子的内容真假难辨,连大活人都经常被忽悠。如果你说,没问题,从整体上看虚假信息不会对最后的整体结果产生颠覆性影响,ok,你放弃了结果的精确性,这一关也可以过。

第3关:   情感分析的结果只有三面,这一形式过于简单,人类的情感何其复杂,仅仅利用消极、积极和中立三面难于概括人类的丰富而真实的情感,所以情感分析的结果对决策者到底有多大影响还很难说,这一方面的实证研究极其缺乏。也许你说,三种态度虽然简单,但基本上可以代表了人类的态度信息,好,你对此问题进行模糊处理,这一关也可以勉强通过。

第4关: 情感分析的结果多是静态的,而人类的态度是动态的,经常因为最新的消息和即时感受而发生改变,而这一改变不一定会进一步显示到互联网上,所以互联网挖掘的结果常常是跨时空的,这样的结果缺乏动态性所以其价值就大打折扣。也许你说可以区分意见发表时间,可问题是当初发表意见那波人不一定是现在发表意见那波人,从统计机制上看,结果仍存在瑕疵。

好了,这四关要全部通过并不容易,每一关都可能导致情感分析结果意义丧失。

当然,情感分析毕竟还处于幼儿阶段,它还有很大的改进空间,以上四个问题并非完全不可克服,嵌入语义、加入时间维度、识别并去除噪音都是可以努力和完善的地方。

转载本文请联系原作者获取授权,同时请注明本文来自王晓光科学网博客。

链接地址:http://blog.sciencenet.cn/blog-67855-295378.html

上一篇:互联网、数字人文与网络数据采集

下一篇:博客评论发表动力学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值