文章地址:https://www.sciencedirect.com/science/article/pii/S0950705121004585
文章内容
方面级情感分析旨在识别出给丁丁句子中特定词的情感极性,但现有的使用RNN神经网络的模型会存在反向传播截断、梯度消失等问题,因此作者设计了一种多种注意力机制的推断网络,通过BERT获得句子的嵌入表示,然后使用内层内和层间注意力机制来迫使模型更关注与aspect相关的部分。在层内注意力机制当中采用了类似于transformer的多头注意力机制和逐点前馈神经网络结构。在跨层注意力机制当中,采用全局注意力机制来捕获目标实体与方面实体之间的交互关系,
文章所用符号表示
模型表述
文章的模型图如上所示。
词嵌入
对于词嵌入作者就是采用的BERT-Base模型,方面实体和上下文分别做嵌入
层内交互机制
作者的层内交互机制由两部分组成,仿照Transformer,一共有2个部分,首先就是多头注意力机制,直接参考《Attention is all you need》即可,接下来就是逐点前馈神经网络 (Point-wise feed-forward network,PWFF),其公式如下:
这里卷积核和步长均为1,因为作者只关注于单词级别的隐藏层表示,这里也是上下文和方面实体分开来做
特征聚焦注意力机制
作者一共设计了2种注意力机制,分别是上下文屏蔽机制( masked mechanism of context,MMC)和上下文加权机制( weighted down mechanism of context,WDMC)。
首先作者先计算了上下文中的单词与aspect方面实体的距离,公式如下:
然后作者提出了一个新的概念,保留窗口,如图中的蓝色所示,保留窗口的大小等于给定方面前后的总词数。
保留窗口中上下文词的隐藏嵌入值将被完全保留,而保留窗口外的词将被掩盖或加权,其中MMC和WDMC的算法流程如下所示:
全局注意力机制
当通过上述注意力机制获得新的隐藏层向量表示以后,作者又使用了全局注意力机制来分配权重,从而考虑上下文中的单词对于方面实体的贡献度,公式如下:
除此之外作者也考虑到了对于方面实体中每一个的单词可能也会对情感极性的判断做出不同的贡献,因此作者这里也做了一个注意力机制
输出层
然后就是上述两个注意力机制的相乘后求和,公式如下:
再通过一个非线性层来计算句子的最终表示:
最后分类就是用的softmax:
最后作者的训练就是用的交叉损失熵+L2正则化。