Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa
Abstract
之前的大量工作都表明了融入句法信息能够提高ABSA的性能。但是最近的预训练模型(PTMs)也同样展现了强大的性能提升。因此,作者提出了问题:
- 预训练模型中是否包含了大量的的ABSA句法信息?
- 只使用预训练模型是否够用?
在本文中,作者比较了几种流行的PTMs诱导树和依赖解析树,结果表明,精调的RoBERTa (FT-RoBERTa)诱导树的性能优于解析器产生的树。进一步的实验表明,FT-RoBERTa生成的树相比之下更加以情感词为导向。
存疑:作者也进行了单纯RoBERTa模型的实验,结果表明纯基于RoBERTa的模型在跨四种语言的六种数据集上的性能优于或接近于以前的SOTA。
1 Introduction
对于一个句子中的一个或多个方面,ABSA要求检测所有方面的情绪极性。以“great food but the service was dreadful”这句话为例,期望食物的极性为正,服务的极性为负。本文只关注方面级情感分类(aspect-level emotion classification, ALSC)任务。
早期的ALSC研究主要依赖人工标注,最近提出的一些性能优异的ALSC模型都利用依赖树来建模方面词和观点词之间的联系。通常,基于依赖树的ALSC模型有三种实现方法:
- 利用依赖树的拓扑结构。
- 基于树的距离,计算依赖树中两个
token
之间的最短路径的边数。 - 同时使用以上两种方法
除了依赖树,PTMs也被用于提高ALSC任务的性能,而且结果表明,PTMs确实隐含地捕获了某种依赖树结构。所以,作者有两个疑问:
- 当与不同基于依赖树的ALSC模型结合使用时,从PTMs导出的树会比依赖解析器给出的树表现更好吗?
- 在精调期间,PTMs会根据ALSC任务调整隐含的树结构吗?
作者基于以上两个问题分别做了大量的实验。
本文贡献:
- 利用FT-PTMs诱导树建立的模型具有较好的性能。此外,使用经过微调的RoBERTa诱导树的模型优于其他树。
- FTPTMs的诱导树更倾向于情感词导向,使方面词与其情感形容词直接相连。
- 发现RoBERTa能够更好地适应ALSC,去帮助各方面找到情感词
2 Related Work
不含依赖的ALSC
Zhang等人(2015)提出了早期不依赖依赖树的模型。后来,LSTM、CNN、Gated NN等都在ALSC中得到了应用。
查一查这些实验结果
含有依赖的ALSC
早期的工作主要采用人工设定特征,后来Dong等人(2014)提出先将依赖树转换成二叉树,然后用RNN将上下文的信息传递到方面词上,由于经常出现语法解析错误,早期基于依赖树的ALSC模型并不比没有依赖树的模型显示出较为明显的优势。而在生成解析树的过程中引入神经网络大大提高了解析质量,Zhang等人(2019)利用GNN生成依赖树取得了显著的成绩。
基于预训练的依赖检测
Clark等人(2019)尝试使用BERT来推断依赖性,Hewitt和Manning(2019)提出了一个少参数的可学习探测模型来探测BERT中编码的语法依赖关系,很难判断语法信息是由BERT本身编码的,还是由探测模型的附加参数编码的。因此,Wu等人(2020)提出的无参数依赖探测方法可能更可取。
3 Method
3.1 Inducing Tree Structure from PTMs
这一节简要介绍了BERT和RoBERTa的模型结构,然后介绍了摄动掩蔽法的基本思想。
3.1.1 BERT and RoBERTa
BERT和RoBERTa可由下列公式表示:
h l ^ = LN ( h l − 1 + MHAtt ( h l − 1 ) ) \hat{h^{l}}=\operatorname{LN}\left(h^{l-1}+\operatorname{MHAtt}\left(h^{l-1}\right)\right) hl^=LN(hl−1+MHAtt(hl−1))
h l = LN ( h ^ l + FFN ( h ^ l ) ) h^{l}=\operatorname{LN}\left(\hat{h}^{l}+\operatorname{FFN}\left(\hat{h}^{l}\right)\right) hl=LN(h^l+FFN(h^l))</