Abstract
本文介绍了我们提交到SemEval-2016基于方面的情绪分析任务5的系统。我们的系统由两部分组成: 用单层前馈网络训练的二进制分类器, 用于方面类别分类 (Slot 1) , 以及用于意见目标抽取的顺序标记分类器 (Slot 2) 。除了提取各种词汇特征、句法特征和集群特征外, 我们还探索了利用深层学习系统提供额外的神经网络特性。我们的系统达到了英语数据集的最佳性能, 四项评价上排名第一 (餐厅和笔记本电脑领域的Slot 1, Slot 2, Slot 1& 2)
Introduction
近年来, 由于互联网上用户生成的内容不断增长, 情绪分析和意见挖掘越来越引起人们的兴趣。传统上, 研究的主要重点是发现一个句子或段落的整体情绪。然而, 这种做法无法处理同一实体不同方面的冲突情绪。因此, 提出了一种更细粒度的方法, 称为基于方面的情绪分析 (ABSA)。目标是正确地识别实体的各个方面和每个方面表达的极性。
基于 SemEval-2016 方面的情绪分析 (SE-ABSA16) 任务是2015年同一个任务的延续 (Pontiki 等, 2015)。除了语句级 ABSA (子任务 1) 之外, 它还提供了数据集以允许参与者在文本级 ABSA (子任务 2) 上工作。此外, 还提供除英语以外的其他语言的其他数据集 (Pontiki 等) (2016)
我们参与了 SE-ABSA16 的子任务 1, 在这里我们提交了Slot 1 (方面类别分类)、Slot 2 (意见目标提取) 和Slot 1和 2 (评估系统是否同时正确标识了Slot 1和Slot 2) 的结果, 用于英语数据集
我们的工作是基于我们以前的机器学习系统描述的 2015, 使用从神经网络学到的附加功能来强化系统。对于Slot 1, 我们将问题看作是一个多类分类问题, 即通过一组二进制分类器预测方面类别。"一对多" 策略对数据中发现的每个类别用于训练一个二进制分类器。每个分类器都使用单层前馈网络进行训练。通过添加从深卷积神经网络系统中吸取的神经网络特征, 提高了系统的性能。对于Slot 2, 我们将问题视为顺序标记任务, 其中顺序标记分类器使用条件随机域 (CRF) 进行训练,递归神经网络系统的输出作为附加功能使用。另外对于Slot 1& Slot 2的预测,将进行组合生成Slot 1和2预测。
本文的其余部分按如下方式组织。在2节中, 描述了我们系统中使用的特性。3节介绍了详细的机器学习方法。4和5节分别显示官方评价结果和特征消融结果。最后, 6 节总结了我们的工作
2.Features
我们的系统使用了以下小节中简要描述的各种features 。所使用的大部分features 与在2015中使用的features 相同