《中国人工智能学会通讯》——3.11 观点层

3.11 观点层

社会媒体数据的开放性,吸引了很多的研究人员进行观点分析的相关研究。Kouloumpis 等[3]权衡了推特数据中存在的话题标签,以此来构建训练数据,并且也证明了词性特征可能对推特数据的情感分析是没有任何用处的。Mehta 等[4]使用推特数据作为情感分析的语料库,追踪了某品牌活动在社交网络中的影响。此外,数据可视化是情感分析的一个重要人机交互(HCI)手段,如图 1 所示,我们研究并构建“流图(river graph)”来可视化社会媒体中特定话题观点的强度和变化趋势[5] 。通过有效的人机交互,首先计算机完成擅长的大规模数据统计、归类和布局;接下来人们可以高效地进行所擅长的识别、推演和决策等工作。观点分析方面有很多技术可以利用传统文档的情感分析技术,但在此基础上又有诸如话题标签、表情符、时效性、动态演化等社会媒体的特点。

image
社会媒体中包含了一大类,如推特微博、社交网络朋友分享和评论等,缺少总体打分、评级等机制的“自由文本”。这些文本数量大,又是不可被忽略的。这就为有监督的情感分析模型带来了人工标注数据的大量费用和时间代价,增加了情感分析的成本,降低了分析效率。此外,在带有评分机制的平台上,不同用户打分所代表的程度也会有差异。喜欢打高分的用户,在 5 分制平台中打 3 分,可能就意味着负面评价;喜欢打低分的用户,3 分则可能是比较不错的评价。这种差异也带来了直接利用评分判断大众观点做法的可靠性问题。因此,如何利用大量无监督数据或者利用少量标注数据进行有效的情感分类,成为情感分析在社会媒体环境下需要着重强调的研究任务。

在无需人工标注的方法中,Turney [6] 曾提出过一种有效的无监督学习算法 PMI-IR,基于搜索引擎的共现检索,以此来计算一个情感词的权重,并以此做简单统计,判断文档的情感。该方法适用于情感比较稳定的情感词,即与领域和话题无关,并对文档进行粗略的判断。Go 等[7]提出一种弱监督的学习方法,在推特数据中使用有噪音的表情符号作为情感标注,训练情感分类模型。另一方面,半监督学习模型能够利用大量的无监督数据来改善标注数据稀缺情况下的分类精度。S3VM(Semi-supervised Support Vector Machines) 就是一种成熟的自训练(self-training)技术。如果情感特征能够划分为独立的两个视图,协同训练(co-training)的半监督框架能进一步提高学习效果。除了这两种需要特征工程的框架外,直接端到端的深度学习方法也被研究者所青睐。文献 [8] 在 RAE(RecursiveAutoencoders)的无监督自编码单元中加入少量的情感标注信息,同时优化重构误差和交叉熵误差,实现半监督的情感分类。Zhai 等[9]指出,情感分类文本中词的表达学习不应只重点考虑高频词的重构误差。因此,利用一部分标注数据学习词的权重,并在大量无标注数据中学习词表达,使权重越高的词,重构误差越小,最后达到利用学习到的表达优化情感分类的目的。此外,利用其他自然语言处理任务的标注数据,如词性标注(POS)、短语分词(chunking)、命名实体识别(NER),并结合无监督的自编码,可以通过多任务学习(multi-tasklearning)来改进情感分类。这在统一自然语言处理的深度神经网络模型[10]中得到了验证。

情感分析的另一大挑战是情感分类模型与训练的话题领域有很强的依赖,即在某个话题的标注数据训练的分类器,在其他话题上可能表现得很差。其本质原因在于不同目标话题讨论、表达观点使用的词,甚至句式可能是有很大不同的。例如,“时间长”在“手机电池续航时间”和“相机聚焦时间”情景下,表达的观点完全相反。对于像推特、朋友分享和评论这样的“自由文本”,其中的话题讨论更加自由、多样并不可预知。这样不同话题标注数据又无法直接利用,需要对每一个差异的话题重新标注数据,使得本来就面临人工标注稀缺的情感分析模型雪上加霜。因此,话题自适应或跨领域情感分类任务是社会媒体环境下更具有挑战和亟待解决的问题。

幸运的是,过去的几年里跨领域(话题)的情感分类在很多特定应用场景,研究提出了有效的解决方法。Blitzer 等[11]曾提出结构一致学习方法SCL(Structural correspondence learning), 将转轴特征(pivot features)用于连接源话题和目标话题领域,通过转轴特征训练模型,发现跨领域的特征相关性,扩展引入目标话题的特征向量,并最小化跨领域转变的相关性错误。谱特征对齐算法SFA(Spectral feature alignment) [12] 和 跨 领 域话题索引 CDTI(cross-domain topic indexing)[13] ,分别在谱特征、概率的隐式主题空间上通过映射关系的学习,从语义层来桥接不同领域。由于跨领域的关键是话题相关的情感词典,因此 Li 等[14]提出了一种领域自适应框架,实现跨领域的情感与话题词典的共现抽取。由于可以借助已有很多其他领域的标记数据,该方法可以不用任何目标领域的标记数据。以上提到的以及很多未提及的研究都利用了充足的标注数据和特征,预先构造出跨领域情感分类的“桥梁”,实现情感分类模型从源话题训练后到目标话题的转变。

Chen 等[15]提出结合半监督的手段,包括自训练和协同训练,实现话题自适应。该方法基于皮尔逊相关系数(PCC)优化两个领域语料特征分布的兼容误差,通过规范化项鼓励分类器尽量选择在两话题领域表现相近的特征。然而话题自适应情感分类,往往除了一部分表现相近的特征外,还有相当数量的话题独有的情感词特征,甚至共有但观点相反的,这些特征反而至关重要。因此,我们提出一种新的、可操作性强的话题自适应情感分类模型TASC [16] 。它利用所有话题中表现相近的情感特征(公共情感词),以及不分话题的少量标注数据,学习初始的通用情感分类器。然后在目标话题的未标注数据上,将与其依赖的情感特征(话题相关情感词)作为待选择和学习的参数,进行半监督的话题自适应情感分类。文献 [17] 随后通过分析社会媒体中用户、网络关系属性等对情感观点的影响,改进 TASC 模型,结果如图 2 所示;以及考虑到社会媒体话题的动态演变特性,在原有模型基础上设计了随时间线动态自适应分类的框架(TASC-t)。除此之外,Glorot 等[18]提出从含有很多话题的无监督语料中深度学习(堆叠的降噪自编码器 SDA)得到的表达,然后通过线性分类模型在源话题的标注数据上学习后,可以天然地自适应到目标话题。随后,Chen 等[19]在边缘化的降噪自编码器 mSDA上得到了相同的结论,并且模型复杂度更低。

image
情感词表达的观点除了与目标话题相关外,在不同用户的表达中也会有差别。例如,有的用户说good,其实是表达“just-so-so”,而有的则是表达“excellent”。为此我们提出一个新的、考虑用户 -物品的有监督话题模型(SUIT)进行情感分析[20] 。该模型通过张量积同时考虑评论内容、用户、物品等因素在隐式空间对于观点极性的作用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值