题目、作者
论文、代码地址:https://aclanthology.org/2021.acl-long.367/
----------------------------------------------------------------------------------------------------------
阅读本篇文章之前,先简单介绍一下span与token!
span(片段):有一个起始位置和结束位置,长度可以任意改变。
----------------------------------------------------------------------------------------------------------
Abstract
1. 以往:每个目标词与观点词之间(word-to-word)的交互,不能很好地完成包含多个单词的目标和意见的任务;
本文:整个目标片段与观点片段之间(span-to-span)的交互(也可以单个单词的方面词或意见词),从而可以进行全片段的语义预测。
ps:目标→aspect
2. 我们的框架同时实现了ASTE、ATE和OTE任务的强大性能。
一、Introduction
1. ASTE任务介绍:上图是情感三元组的介绍,其中Windows 8与touchscreen functions是两个方面词(片段),not enjoy是opinion,是对于方面词的主观陈述
2. contribution:
① 定制了一种片段级(span-level)方法,以考虑用于ASTE任务的span-to-span交互。
② 本文提出了一种结合ATE(aspect terms extraction)和OTE(opinion terms extraction)任务的显式监督的双通道片段剪枝策略,以降低片段枚举带来的高计算成本,并最大限度地将有效的目标候选和意见候选结合在一起。【后面会细说】
③ 我们提出的Span-ASTE模型在四个数据集上进行实验,在ASTE、ATE和OTE任务上都显著优于之前的方法(与同样使用BiLSTM和BERT的工作进行比较)。
二、model
模型总览:句子首先被输入到句子编码模块,以获得token级表示,接下来我们通过concat操作和枚举的方法,得到片段级表示;然后我们采用基于ATE和OTE任务的前馈神经网络来监督我们所提出的双通道片段剪枝策略,从而得到剪枝后的候选目标(aspect)和候选意见;最后,对每个候选目标和候选意见进行concat,得到目标-意见对,通过该目标意见对决定他们的情感关系。
2.1 sentence encoding
Contextual Encoding:分别使用BiLSTM和Bert作为encoder。对于BiLSTM,首先通过GloVe(捕捉单词间的语义特征)得到句子的embedding,再通过双向LSTM得到句子的上下文表示。
公式(1):双向LSTM的第i个token表示,hi→和hi←分别代表LSTM的forward和backward的隐藏状态
Span Representation:有两种方式。第一种表达方式是如公式2所示,将start token,end token,width representations三者concat起来作为片段表示;第二种表达方式是将从位置i到位置j的一整个片段的token通过最大池化或平均池化,得到片段表示。方式二见消融实验。
公式(2):片段级表示。分别代表片段span的:起始表示;终点表示;(产生一个)可训练特征的embedding,表示片段的宽度(每个片段的宽度是j-i+1)
2.2 mention module
ATE&OTE:通过预测目标(aspect)片段和意见(opinion)的得分来指导双通道片段剪枝,具体来说就是将每个枚举片段si,j作为输入,预测提及类型{Target,Opinion, Invalid}
公式(3):将每个枚举片段si,j输入到(带有非线性激活函数的)前馈神经网络中,再经过softmax计算出该枚举片段的前提下,m是目标/意见/不合法的概率
Pruned Target and Opinion/双通道剪枝策略:不光剪掉了invalid的片段,还剪掉了概率(分数)较低的target和opinion片段
公式(4):将公式(3)中的target和opinion概率看做评分,从所有枚举片段中挑选出最优秀的,也就是评分最高的目标候选和意见候选,分别把他们放入两个独立的目标候选池和意见候选池中 (目标候选和意见候选片段个数都是nz,其中n是句子长度,z是阈值超参数)
【与contribution第二点呼应】剪枝→降低计算成本;剪枝+双通道(将目标候选和意见候选放入两个独立的候选池中)→最大限度将有效的目标候选和意见候选结合在一起
2.3 triplet module
Target Opinion Pair Representation:将每个目标候选表示和每个意见候选表示concat起来,得到目标-意见对表示。
公式(5):目标、意见片段对表示。其中,f可以产生一个基于距离的可训练特征embedding,距离的计算公式是min(|b − c|, |a − d|),例如候选目标片段的起始位置和终点位置为1、3,候选意见片段的起始位置是5、10,即a、b、c、d=1,3,5,10,那么这两个片段之间的距离为min(|3 − 5|, |1 − 10|)=2
Sentiment Relation Classifier、公式(6):最后,将目标、意见对表示输入到一个前馈神经网络,来确定候选目标片段和候选意见片段之间情感关系 此处,无效表示目标和意见对没有有效的情感关系
Loss:
即ATE、OTE任务损失+ASTE任务损失。
三、experiment
1. dataset:
2. 对比实验:
3. 验证ATE、OTE任务有效性实验:
注:GTS是之前工作的最好结果
ATE、OTE性能高的原因:不依赖于基于标签的方法的解码启发式,而是考虑了每个片段的语义,提高了目标词和观点词的提取。
4. 消融实验 :
解读:
第一行:去掉片段表示(公式2)中的宽度embedding和目标-意见对表示(公式5)中的片段距离embedding
第二、三行:第二种片段表示方法——将从位置i(片段其实位置)到位置j(片段结束位置)之间的一整段片段通过最大、平均池化得到的片段表示。
四、结论
【与contribution差不多,可以略读】
1.我们提出了一种跨级方法Span-ASTE来学习ASTE任务的目标范围和意见范围之间的交互。它可以解决现有方法也就是只考虑字对字的交互的局限性。
2.我们还提出在双通道剪枝策略中加入ATE和OTE任务作为监督,以减少枚举目标候选和意见候选的数量,提高计算效率,并最大限度地提高有效目标候选和意见候选配对的机会。
3.我们的方法明显优于之前的ASTE以及ATE和OTE任务的方法,我们的分析证明了我们的方法的有效性。