NLP理论基础与实践task-06 Attention原理

最新推荐文章于 2021-11-19 13:00:00 发布

谢xie111

最新推荐文章于 2021-11-19 13:00:00 发布

阅读量291

点赞数

分类专栏：学习笔记文章标签： NLP Attention

本文链接：https://blog.csdn.net/weixin_40299430/article/details/99697464

版权

学习笔记专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、基本的Attention原理

attention即为注意力，人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的，比如，我们期末考试的时候，我们需要老师划重点，划重点的目的就是为了尽量将我们的attention放在这部分的内容上，以期用最少的付出获取尽可能高的分数；再比如我们到一个新的班级，吸引我们attention的是不是颜值比较高的人？普通的模型可以看成所有部分的attention都是一样的，而这里的attention-based model对于不同的部分，重要的程度则不同。
参考链接 https://www.jianshu.com/p/ff968920ec73
Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。严格来说，Attention并算不上是一种新的model，而仅仅是在以往的模型中加入attention的思想，所以Attention-based Model或者Attention Mechanism是比较合理的叫法，而非Attention Model。
然而，上述模型有一个很大的问题：对于输出序列而言，每一个时刻传入的输入语义向量均为同样的值。而这很显然跟我们的生活常识不符，例如：当我们翻译一句话中某个单词时，跟它相邻词的参考价值，往往要大于远离它的词。所以为了解决这个问题，NMT框架中引入了Attention机制。通过参数，来控制每一个词在语义向量中的权重，从而提升最终效果。其网络结构如下：
在这里插入图片描述
Attention Model其中下半部分为Encoder结构，这里采用双向RNN构成，前向RNN顺序输入单词，后向RNN反序输入单词。将同一时刻的两个RNN单元的隐状态做拼接形成最终的隐状态输出ht，这样ht既包含当前单词前一个时刻的信息，也包含后一个时刻的信息。上半部分为Decoder结构，为一个单向的RNN。中间部分就是Attention，采用如下公式计算：
在这里插入图片描述
其中，si-1为Decoder上一个时刻的隐状态，hj为j时刻Encoder隐藏层输出状态。使用一个网络结构a训练，得到的分值eij表示j时刻输入与i时刻输出之间的匹配程度。之后用一个softmax函数归一化，得到的标准概率表示alpha ij即为hj在翻译yi中的重要性表示。最后以对应的alpha作为权值，加权计算每一个时刻的输入语义向量ci，即体现了每一个输入单词，在翻译不同输出单词中的重要性。

二、HAN的原理（Hierarchical Attention Networks）

参考链接 https://zhuanlan.zhihu.com/p/44776747
在深度学习文本分类模型中，HAN（Hierarchical Attention Network）是一个非常有意思也值得深入研究的模型，不仅解决了TextCNN丢失文本结构信息的问题，在长文本上有不错的分类精度，更为重要的事，在现代模型中，他的可解释性非常强。
在这里插入图片描述
以上图的第二句为例，输入词向量序列 [公式] ，通过词级别的Bi-GRU后，每个词都会有一个对应的Bi-GRU输出的隐向量 [公式] ，再通过 [公式] 向量与每个[公式]向量点积得到attention权重，然后把[公式]序列做一个根据attention权重的加权和，得到句子summary向量 [公式] ，每个句子在通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量，然后根据v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。

三、利用Attention模型进行文本分类

参考文献 https://www.cnblogs.com/jiangxinyang/p/10208227.html
Bi-LSTM + Attention 就是在Bi-LSTM的模型上加入Attention层，在Bi-LSTM中我们会用最后一个时序的输出向量作为特征向量，然后进行softmax分类。Attention是先计算每个时序的权重，然后将所有时序的向量进行加权和作为特征向量，然后进行softmax分类。在实验中，加上Attention确实对结果有所提升。其模型结构如下图：
在这里插入图片描述

谢xie111

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP理论基础与实践task-06 Attention原理

一、基本的Attention原理attention即为注意力，人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的，比如，我们期末考试的时候，我们需要老师划重点，划重点的目的就是为了尽量将我们的attention放在这部分的内容上，以期用最少的付出获取尽可能高的分数；再比如我们到一个新的班级，吸引我们attention的是不是颜值比较高的人？普通的模型可以看成所有部分的...
复制链接

扫一扫