attention（注意力机制）原理和pytorch demo

最新推荐文章于 2024-08-08 16:38:28 发布

拿铁大侠

最新推荐文章于 2024-08-08 16:38:28 发布

阅读量1.3w

点赞数 2

分类专栏： pytorch 注意力机制 RNN 文章标签： rnn 深度学习 python

本文链接：https://blog.csdn.net/weixin_39228381/article/details/108715758

版权

pytorch 同时被 3 个专栏收录

9 篇文章 16 订阅

订阅专栏

注意力机制

1 篇文章 0 订阅

订阅专栏

RNN

1 篇文章 0 订阅

订阅专栏

说明

demo源自吴恩达老师的课程，从tensorflow修改为pytorch，略有不同。

RNN的局限性

原始数据是一个字符串：friday august 17 2001，长度是21（包含空格），为了简便这里把每一个字符用一个onehot向量表示。于是数据转化为21个onehot向量。依次输入到一个RNN网络（可以是普通RNN、也可以是LSTM和GRU），最终得到一个向量（即RNN网络中的隐状态）。如果此时用这个向量作为整个字符串的编码信息直接去解码，很可能会丢失一些信息，尤其是输入更长的字符串时，更容易丢失信息。并且很难抽取距离较远的两个特征之间的关系。

注意力机制原理

我们的目标是把这个字符串翻译成2001-08-17。想象一下如果是人来进行这个翻译，那么我们会做出如下映射关系，箭头即表示人的注意力机制。神经网络的注意力机制就是在模仿人类。

注意力机制实现

第一步：编码

由于输入序列是不定长，为方便计算，将全部输入都补充到长为30，补充方式为末尾加特定字符，记为<pad>。即friday august 17 2001<pad><pad><pad><pad><pad><pad><pad><pad><pad>。

然后把对应的30个onehot向量（对于其他任务，可以是不同的特征向量），依次输入到encoder网络（这里使用双向LSTM）中，每次计算得到的隐状态向量全都保存下来，一共是30个（这里LSTM的隐状态向量长度设为64，由于是双向LSTM，长度一共是128），作为初始特征，记作Feature_30x128，这里30表示时间序列长度。

第二步：第0次打分并解码

此时解码部分RNN网络的隐状态向量H初始为全零（这里向量长度是64），复制30份，然后和Feature_30x128拼起来得到Feature_30x192。然后输入到一个全连接网络，输出是30*1维矩阵，即长为30的向量，最后经过softmax，得到30个打分（softmax的目的是让30个打分之和为1）。

此时有30个长为128的初始特征，即Feature_30x128；以及30个打分，相乘后加起来，得到一个128维的打分后特征，此操作举例如下（为简便，例子中的特征维度不是30*128，是3*4，则分数有3个）。

${\color{Red} {\color{Red} }Feature\_30x128}=\begin{bmatrix} 0.1 & 1.1 &0.7 \\ 0.2 & 0.5 &1.4 \\ 0.4 & 0.3 &0.5 \\ 0.3 & 0.6 &0.2 \end{bmatrix},score=\begin{bmatrix} 0.1 & 0.7 & 0.2 \end{bmatrix}$