Paper llink: https://acl2018.org/paper/555
Code: https://github.com/ruidan/Aspect-level-sentiment
Task:aspect-level sentiment classification
Author:Jasminexjf
Time:2019-06-24
1. introduction
基于双向LSTM的attention被广泛用于aspect-level sentiment classification。但由于aspect层面数据标注的困难性,现有的aspect水平数据集规模都较小,这大大限制了模型的效果。本文提出两种从document水平的文档中迁移知识的方法:pre-train和multi-task,更容易地提升模型aspect水平上的情感分类效果。试验证明了两种方式都能够起到提升作用。
2.model
2.0 general attention-based LSTM network
1)embedding (parameter: E)
embedding of context:
embedding of target:
2)LSTM(parameter: )
3)attention layer(parameter: )
4)softmax layer:(parameter:)
2.1 预训练(PRET):
首先训练文档级别的样本,LSTM输出的最后一个隐向量作为文档表征。将相关参数初始化E, θlstm, Wo, bo,在aspect层面的训练上进行微调。
2.2 Multi-task Learning(MULT):
同时训练文档、aspect两个级别的分类任务。此时embedding层与LSTM层被两组任务共享,文档被表示为输出的平均向量。其他参数是特定于任务的。
2.3 Combined (PRET+MULT):
首先在document层面上预训练,将与训练好的权重及初始化参数用于两组任务,用mult作为输出讨论结果
3. dataset
SemEval 2014, 2015, and 2016
4. experiment and results
试验在四个基准数据集上进行。两个document水平的数据集从Yelp2014和 Amazon Electronics dataset中获取。情感标签被分为积极、消极和中立三类。每一个样本数据集包含30000个样例,被均分为三类标签。当两个数据分类源自相似来源,对aspect与document标签进行配对。the Yelp dataset is used by D1, D3, and D4 for PRET and MULT, and the Electronics dataset is only used by D2。
模型对比
LSTM, LSTM+ATT, PRET, MULT, PRET+MULT,使用accuracy和macro-F1 作为评价标准。报告的数值是每一种方法随机初始化5次以上的平均值。
D1在训练集中存在大量中性数据,没有外部知识的分类器仍然能够在D1学到一些中立标签,但是在D3和D4中很难学到。因此,即使预测差异很小,也会很大程度上影响到中性类的准确性和召回率(在正确识别了5个中性示例后,两个数据集的召回率都提高了10%以上)。因此,D3和D4的macro-F1评分受到影响更大。
Ablation Tests
表2表明很大一部分性能提升来自PRET。为了更好理解不同层的迁移效果,embedding层、LSTM层、输出层,把PRET中不同层的Ablation Tests从document迁移到aspect中。表3中,迁移对各个情况都有帮助。LSTM和embedding层的迁移相比输出层更加有效,因为输出层有任务特异性。Embedding层在D3和D4上的迁移效果提升更明显。两个数据集的标签分布不均,情感信息不能很好地被捕捉。在消极、中立标签小规模的训练样本下,aspect水平的分类嵌入训练仍然不够充分,不能捕捉正确的情感。因此embedding层在迁移的情况下能够获得较为明显的提升。
5、结果分析
对PRET+MULT进行了实验,将文档级训练示例的百分比从0.0变化到1.0。随着文档示例数量的增加,在准确性方面的提升在所有数据集上都是稳定的。对于macro-F1,the D1 and D2是稳定的。
为了更好地理解所提出的方法在何种情况下是有用的,本文分析了由PRET+MULT正确分类但由LSTM+ATT错误分类的测试示例子集。我们发现文档级知识所带来的好处通常表现在四个方面。首先,让我们吃惊的是,LSTM+ATT在一些常见的意见词的例子中犯了明显的错误。下面是两个例子,目标包含在[ ]中,其真实情感在下标中表示:
在上面的例子中,LSTM+ATT确实注意到了正确的意见词,但是做出了错误的预测。一个可能的原因是,没有PRET的词向量不能有效地捕捉情感信息,而aspect级别的训练样本不足以捕捉某些单词的情感信息。PRET+MULT消除了这类错误。
另一个发现是,本文的方法有助于更好地捕捉领域特定的意见词,因为从来自类似领域的文档中获得了外部的知识:
在第一个例子中,LSTM+ATT正确地处理了small,但做出了错误的预测,因为在许多情况下,small可能是负面的。它甚至没有捕捉到第二个例子。
LSTMs通常只在大型数据集上显示它们的潜力。如果没有足够的训练样本,它可能无法有效地捕获各种序列模式。在更大的文档级语料库上对网络进行预处理可以有效地解决这个问题。
6、结论
由于在实践中难以获得大规模的训练数据,现有的aspect级神经网络模型的效果受到了限制。本文的工作是第一次尝试将来自文档级语料库的知识用于训练aspect级情感分类任务。本文已经证明了提出的方法的有效性,并分析了知识转移所带来的主要好处。提出的方法可以与其他aspect层面的神经模型结合,进一步提高它们的性能。