题目、作者
论文连接:https://aclanthology.org/2021.naacl-main.146.pdf
Abstract
1. 提出问题:预训练模型中是否包含足够的ABSA语法信息,使我们仅基于预训练模型就能得到一个良好的ABSA模型?
2. 结论:来自微调(fine-tuned)RoBERTa(FT-RoBERTa) 的诱导树(induced tree)优于解析器(parse)提供的树
3. 实验结果表明:
1)FT-RoBERTa诱导树具有更强的情感词导向能力,有利于ABSA任务的完成
2)纯基于RoBERTa的模型在跨四种语言的六种数据集上的性能优于或接近于以前的SOTA
一、Introduction
1. ABSA:一种细粒度的情感分析,对于一个句子中的一个或多个方面,该任务要求检测所有方面的情感极性。通常来说,ABSA任务包含方面词提取(Aspect Extraction)和方面级情感分析(Aspect-Level Sentiment Classification)
2. ALSC任务的发展史:
1)早期:使用人工设计的句法特征。缺点:工作量大,且不足以完成ALSC任务
2)最近:使用依赖树帮助方面词找到与他们相连接的上下文单词(通常是观点词)
基于依赖树的ALSC模型有三种实现方法:
① 使用依赖树的拓扑结构
② 使用基于树的距离
③ 同时使用拓扑结构和基于树的距离
3)使用预训练模型(例如BERT):实验结果表明,预训练模型隐含地捕获了某种依赖树结构
作者提出了两个问题:
① 当与不同的基于树的ALSC模型相结合时,由预训练模型导出的树会比依赖解析器给出的树获得更好的性能吗?
② 在微调期间,预训练模型是否会将隐含的树结构应用于ALSC任务?
为了回答这两个问题,作者做了大量的实验
3. 贡献:
① 利用微调预训练模型(FT-PTMs)诱导树建立的模型具有较好的性能。此外,使用微调RoBERTa的诱导树的模型比其他树表现得更好
② 从FT-PTMs中得到的诱导树更倾向于情感词导向,使得方面词直接与它的情感形容词相连
③ RoBERTa能够更好地适应ALSC,帮助各方面找到情感词
二、Related Work
1)无依赖的ALSC
使用LSTM、LSTM+attention、CNN等神经网络模型在不使用依赖树的基础上,完成ALSC任务
2)有依赖的ALSC
ALSC早期的工作主要采用机器学习算法和手工设计特征;最近利用图神经网络(GNN)建模依赖树
3)基于预训练模型的依赖探测(Dependency Probing)
使用BERT的单个或组合头注意图来推断依赖性
三、Method
本节首先介绍了如何从预训练模型中诱导树,然后描述了三种基于树的代表性ALSC模型
3.1 Inducing Tree Structure from PTMs
摄动掩蔽(Perturbed Masking)可以从预训练的模型中不添加额外的参数而诱导出树木。
3.1.1 BERT and RoBERTa
BERT和RoBERTa都是基于transformers的结构,他们可以表达成如下公式:
BERT在Masked Language Modeling (MLM) and Next Sentence Prediction (NSP)任务上预训练:
1)MLM任务:句子中15%的token按1:1:8的比例分别被随机token、本身、[mask]所替换
2)NSP任务:两个句子在喂入BERT之前被concat起来。BERT需要利用“[CLS]”的向量表示来判断输入是否连续
RoBERTa仅在MLM任务预训练
3.1.2 Perturbed Masking
摄动掩蔽(Perturbed Masking)是一种从预训练模型中检测句法信息的方法
对于一个句子,BERT和RoBERTa将每一个xi映射成上下文表示
摄动掩蔽通过计算f(xi,xj),得到token xj对token xi的影响
计算过程:首先将xi的token替换为[MASK],返回mask后xi的表示;然后mask xj,返回一个xi和xj都mask的表示;最后通过欧式距离计算出这两个表示之间的距离,作为最终影响值。
之后在每两个token重复这个过程,我们将得到一个影响矩阵,其中每个元素的值为。最后使用树的解码算法,从矩阵M中抽取依赖树
3.2 ALSC Models Based on Trees
本节中,我们将使用上一节提到的方法,使用3个最新的基于树的ALSC模型进行实验
3.2.1 Aspect-specific Graph Convolutional Networks (ASGCN)
利用依赖树作为一个图,其中每个单词被视为一个节点,单词之间的依赖被视为一条边。ASGCN将依赖树转换成图后,利用GCN对图进行操作,对每个单词之间的依赖关系进行建模。
ASGCN原论文链接https://aclanthology.org/D19-1464.pdf
3.2.2 Proximity-Weighted Convolution Network (PWCN)
对于一个输入句子,PWCN首先获取它的依赖树,然后根据这个树,为句子中的每个单词分配一个接近值。每个单词的接近值由该单词和方面之间在依赖树中的最短路径计算。
PWCN原论文链接https://arxiv.53yu.com/pdf/1909.10171.pdf
3.3 Relational Graph Attention Network (RGAT)
将依赖树转换为面向方面词的依赖树。面向方面的依赖树使用方面作为根节点,其他所有词都直接依赖于方面。依赖树中,方面和其他单词之间的关系要么基于语法标记,要么基于基于树的距离。
RGAT为与方面词有1个基于树的距离的单词保留语法标记,并为长距离单词分配虚拟标签(如2:con)
RGAT原论文链接https://aclanthology.org/2020.acl-main.295.pdf
RGAT模型不仅利用了依赖树的拓扑结构,而且利用了基于树的两个词之间的距离。
四、Experimental Setup
4.1 Datasets
横跨4种语言的6个数据集:Rest14, Laptop14, Twitter,以及3个其他语言数据集
4.2 Tree Structures
对于每个数据集,我们从三个来源获得五种树:
1)从现成的依赖树解析器派生出来的,比如spaCy2和allenNLP3(“①Dep.”)
2)利用摄动掩蔽法(Perturbed Masking method)从预训练的BERT和RoBERTa中诱导出树(“②BERT /③RoBERTa Induced Tree”)
3)利用摄动掩蔽法将微调后的BERT和RoBERTa在相应的数据集中诱导成树(“④FT-BERT/⑤FT-RoBERTa Induced Tree” )
除此之外,分别用“Left-chain”, “Right-chain”代表每个单词都认为它的前一个或下一个单词是从属子单词
具体见表2
4.3 Implementation Details
为了获得FT-PTMs诱导树,我们对ALSC数据集上的BERT和RoBERTa进行了微调。
五、Experimental Results
5.1 ALSC Performance with Different Trees
在英文数据集上,基于树结构的ALSC模型与不同树结构相结合的性能
5.2 Analysis
1)Proportion of Neighboring Connections
句子中邻居连接的比例:
为了回答引言部分中的问题Q1,我们需要比较Dep.、BERT诱导树和RoBERTa诱导树的结果。结果表明,具有依赖树的模型通常比预训练模型诱导树具有更好的性能。虽然使用预训练模型诱导树的模型的性能通常比使用依赖解析树的模型差,但是使用ALSC微调RoBERTa所诱导的树的模型可以超过这两种模型。
【图b更多依赖于邻接单词,图c的依赖模型更多样化】
2)Aspects-sentiment Distance
方面词-情感的距离可定义为如下公式:
字母符号含义:C为一个情感词集合;Si为数据集S其中的一句话;w为Si中方面词集合,wi为其中一个方面词;C'=Si C,表示同时出现在句子Si和情感词集合C中的情感词;| · |为集合·中的元素个数;dist(xi, xj)表示xi和xj在树上的相对距离
情感词集合C如下图:
我们在表4中给出了英文数据集中不同树的aspect -sentiment Distance (AsD)。结果表明,FT-RoBERTa具有最小的AsD值,表明方向-情感距离最短
综上所述,作为Q2的结论,这些分析表明,ALSC上的微调可以隐式地调整诱导树
5.3 Comparison between ALSC models
6 Conclusion
1. 在本文中,我们分析了ALSC任务的几种树结构,包括解析器提供的依赖树和预训练模型诱导的树
2. 实验表明,ALSC任务的微调使预训练模型隐式地学习更多面向情感词的树,这对基于Glove的ALSC模型有好处。得益于其更好的隐式句法信息,经过优化的RoBERTa具有一个MLP,足以为ALSC任务获得SOTA或接近SOTA的结果