NLP理论基础与实践task-06 Attention原理

一、基本的Attention原理

attention即为注意力,人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的,比如,我们期末考试的时候,我们需要老师划重点,划重点的目的就是为了尽量将我们的attention放在这部分的内容上,以期用最少的付出获取尽可能高的分数;再比如我们到一个新的班级,吸引我们attention的是不是颜值比较高的人?普通的模型可以看成所有部分的attention都是一样的,而这里的attention-based model对于不同的部分,重要的程度则不同。
参考链接 https://www.jianshu.com/p/ff968920ec73
Attention-based Model其实就是一个相似性的度量,当前的输入与目标状态越相似,那么在当前的输入的权重就会越大,说明当前的输出越依赖于当前的输入。严格来说,Attention并算不上是一种新的model,而仅仅是在以往的模型中加入attention的思想,所以Attention-based Model或者Attention Mechanism是比较合理的叫法,而非Attention Model。
然而,上述模型有一个很大的问题:对于输出序列而言,每一个时刻传入的输入语义向量均为同样的值。而这很显然跟我们的生活常识不符,例如:当我们翻译一句话中某个单词时,跟它相邻词的参考价值,往往要大于远离它的词。所以为了解决这个问题,NMT框架中引入了Attention机制。通过参数,来控制每一个词在语义向量中的权重,从而提升最终效果。其网络结构如下:
在这里插入图片描述
Attention Model其中下半部分为Encoder结构,这里采用双向RNN构成,前向RNN顺序输入单词,后向RNN反序输入单词。将同一时刻的两个RNN单元的隐状态做拼接形成最终的隐状态输出ht,这样ht既包含当前单词前一个时刻的信息,也包含后一个时刻的信息。上半部分为Decoder结构,为一个单向的RNN。中间部分就是Attention,采用如下公式计算:
在这里插入图片描述
其中,si-1为Decoder上一个时刻的隐状态,hj为j时刻Encoder隐藏层输出状态。使用一个网络结构a训练,得到的分值eij表示j时刻输入与i时刻输出之间的匹配程度。之后用一个softmax函数归一化,得到的标准概率表示alpha ij即为hj在翻译yi中的重要性表示。最后以对应的alpha作为权值,加权计算每一个时刻的输入语义向量ci,即体现了每一个输入单词,在翻译不同输出单词中的重要性。

二、HAN的原理(Hierarchical Attention Networks)

参考链接 https://zhuanlan.zhihu.com/p/44776747
在深度学习文本分类模型中,HAN(Hierarchical Attention Network)是一个非常有意思也值得深入研究的模型,不仅解决了TextCNN丢失文本结构信息的问题,在长文本上有不错的分类精度,更为重要的事,在现代模型中,他的可解释性非常强。
在这里插入图片描述
以上图的第二句为例,输入词向量序列 [公式] ,通过词级别的Bi-GRU后,每个词都会有一个对应的Bi-GRU输出的隐向量 [公式] ,再通过 [公式] 向量与每个[公式]向量点积得到attention权重,然后把[公式]序列做一个根据attention权重的加权和,得到句子summary向量 [公式] ,每个句子在通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量,然后根据v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。

三、利用Attention模型进行文本分类

参考文献 https://www.cnblogs.com/jiangxinyang/p/10208227.html
Bi-LSTM + Attention 就是在Bi-LSTM的模型上加入Attention层,在Bi-LSTM中我们会用最后一个时序的输出向量 作为特征向量,然后进行softmax分类。Attention是先计算每个时序的权重,然后将所有时序 的向量进行加权和作为特征向量,然后进行softmax分类。在实验中,加上Attention确实对结果有所提升。其模型结构如下图:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值