《A novel network with multiple attention mechanisms for aspect-level sentiment analysis》论文阅读

文章地址:https://www.sciencedirect.com/science/article/pii/S0950705121004585

文章内容

  方面级情感分析旨在识别出给丁丁句子中特定词的情感极性,但现有的使用RNN神经网络的模型会存在反向传播截断、梯度消失等问题,因此作者设计了一种多种注意力机制的推断网络,通过BERT获得句子的嵌入表示,然后使用内层内和层间注意力机制来迫使模型更关注与aspect相关的部分。在层内注意力机制当中采用了类似于transformer的多头注意力机制和逐点前馈神经网络结构。在跨层注意力机制当中,采用全局注意力机制来捕获目标实体与方面实体之间的交互关系,

文章所用符号表示

在这里插入图片描述

模型表述

在这里插入图片描述
  文章的模型图如上所示。

词嵌入

  对于词嵌入作者就是采用的BERT-Base模型,方面实体和上下文分别做嵌入
在这里插入图片描述

层内交互机制

  作者的层内交互机制由两部分组成,仿照Transformer,一共有2个部分,首先就是多头注意力机制,直接参考《Attention is all you need》即可,接下来就是逐点前馈神经网络 (Point-wise feed-forward network,PWFF),其公式如下:
在这里插入图片描述
  这里卷积核和步长均为1,因为作者只关注于单词级别的隐藏层表示,这里也是上下文和方面实体分开来做

特征聚焦注意力机制

  作者一共设计了2种注意力机制,分别是上下文屏蔽机制( masked mechanism of context,MMC)和上下文加权机制( weighted down mechanism of context,WDMC)。
  首先作者先计算了上下文中的单词与aspect方面实体的距离,公式如下:
在这里插入图片描述
  然后作者提出了一个新的概念,保留窗口,如图中的蓝色所示,保留窗口的大小等于给定方面前后的总词数。
在这里插入图片描述
  保留窗口中上下文词的隐藏嵌入值将被完全保留,而保留窗口外的词将被掩盖或加权,其中MMC和WDMC的算法流程如下所示:
在这里插入图片描述
在这里插入图片描述

全局注意力机制

  当通过上述注意力机制获得新的隐藏层向量表示以后,作者又使用了全局注意力机制来分配权重,从而考虑上下文中的单词对于方面实体的贡献度,公式如下:
在这里插入图片描述
  除此之外作者也考虑到了对于方面实体中每一个的单词可能也会对情感极性的判断做出不同的贡献,因此作者这里也做了一个注意力机制
在这里插入图片描述

输出层

  然后就是上述两个注意力机制的相乘后求和,公式如下:
在这里插入图片描述
  再通过一个非线性层来计算句子的最终表示:
在这里插入图片描述
  最后分类就是用的softmax:

在这里插入图片描述
  最后作者的训练就是用的交叉损失熵+L2正则化。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值