Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms 阅读笔记
2017 AAAI
2.摘要
方面词和观点词的协同抽取的任务是从用户提供的文本中,显示的提取描述实体特征的方面词和表达情感的观点词。
旧方法与存在的问题:一种有效的方法是通过分析每个句子的句法结构来挖掘方面词和情感词之间的关系。然而,这种方法需要花费大量的精力进行解析,并且在很大程度上依赖解析的结果。
本文提出了一种新的深度学习模型,即耦合的多层关注。是端到端的,不需要任何的解析器和其他语言资源进行预处理。
具体来说,就是提出了一个多层的注意网络,其中每一层都是由一对注意力组成,一个注意力是为了方面词的提取,一个注意力是为了情感词的提取。它们是交互学习的,以便在方面术语和观点术语之间双向传播信息。通过多层模型,可以进一步挖掘术语间的间接关系,从而更精确地提取信息
2.介绍
方面术语是指描述实体(例如产品)的属性或特征的单词或短语(一系列单词)。
意见词是指带有主观情绪的表达。
贡献:
-
提出了一个面向方面和观点术语的端到端深度学习模型,而不需要任何句法/依赖解析器或语言资源来生成额外的信息作为输入。
-
在三个基准数据集上进行了大量的实验,以验证我们的模型在方面和观点项协同提取方面达到了最先进的性能。
3. 问题重述
给定了一个评论句子 si = {wi1,wi2,…,win} 。目的是从句子中提取方面词 Ai = {αi1,……,αij} 和意见词 Pi = {pi1,……,pim} 。
该任务是序列标记标记问题,具体来说,有五个类 Y = {BA,IA,BP,IP,O} 。就是为每个位置赋予一个标签。
4.多层耦合注意力
-
在一层中,对每个句子都构造一对注意力,其中一个注意力用于方面词的提取,一个用于情感词的提取。
-
捕捉方面方面词和情感词之间的直接关系A→B。这样每个注意都会受到另外一个注意的影响。
-
为了进一步捕获方面和观点术语之间的间接关系,我们构建了一个具有多层耦合注意的网络。
4.1 单层注意力模型
方面词抽取举例:
输入的 H = {h1,……,hn} ,是上下文中每个单词的特征表示。在方面注意中,首相生成一个方面的原型向量 uα ,他可以看作是方面术语的一般表示(方面原型将引导模型关注最相关的模型)。
模型扫描序列并生成注意力向量 riα 和注意力分数 eiα 。
为了生成注意向量 riα ,首先要计算一个合成向量 βiα 。
βiα 经过一个GRU网络获得注意力张量:
注意力分数计算如下。
vα 可以看做是一个权重向量,对每个 特征进行相应的加权。
4.2 双向传播的成对注意力
独立学习方面词注意力和意见词注意力不能很好地利用他们之间的关系。
4.3 多头成对耦合注意力
因为一对注意只能捕捉方面词和意见词之间的直接关系。而不能捕捉他们之间的间接关系。如下图所示,右边上方表示的是直接关系,右边下方表示的是间接关系。为了提取间接关系,我们设计了一个多层耦合关注的网络(具体描述在上一节)。
对于 t+1 层,原型向量 umt+1 ,这里m∈{a,p},分别表示方面词和意见词。
计算过程如下:
V是一个需要学习的递归变换矩阵。
otm 是一个累加向量,是通过如下计算的:
αtim 是一个正则化后的注意力分数。
最之后一层的成对注意力模块,对最后求到的 rim softmax一下,然后根据概率预测token的标签。