自注意力机制（Self-Attention）：从Seq2Seq模型到一般RNN模型

最新推荐文章于 2023-03-03 10:44:04 发布

RuizhiHe

最新推荐文章于 2023-03-03 10:44:04 发布

阅读量1.6k

点赞数 2

分类专栏：自然语言处理文章标签：人工智能机器学习深度学习自然语言处理 attention

本文链接：https://blog.csdn.net/qq_24178985/article/details/118683144

版权

自然语言处理专栏收录该内容

10 篇文章 12 订阅

订阅专栏

1. 前言

本文讲解自注意力机制（Self-Attention）。
本人全部文章请参见：博客文章导航目录
本文归属于：自然语言处理系列
本系列实践代码请参见：我的GitHub
前文：注意力机制（Attention）：Seq2Seq模型的改进
后文：Attention is all you need：剥离RNN，保留Attention

2. 自注意力机制（Self-Attention）

Seq2Seq模型一般有两个RNN网络，一个为Encoder，另一个为Decoder。Attention用于改进Seq2Seq模型，解决RNN遗忘问题。
Self-Attention也叫做Intra-Attention，与Attention非常类似。Self-Attention不局限于Seq2Seq模型，可以用在任何RNN上，Self-Attention可改进一般RNN模型，解决一般RNN模型遗忘问题。实验证明Self-Attention对多种机器学习和自然语言处理的任务都有帮助。

2.1 SimpleRNN + Self-Attention

根据简单循环神经网络（Simple RNN）原理与实战一文可知，在不使用Self-Attention的情况下，Simple RNN通过如下公式更新状态：
$h_{t+1}=tanh\big(A \cdot {h_t\brack x_{t+1}}+b\big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(1)$

为了更方便说明Self-Attention原理，设当前时刻为 $t$ 时刻，下一时刻为 $t + 1$ 时刻。而不采用当前时刻为 $t - 1$ 时刻，下一时刻为 $t$ 时刻这种更常见的设定。

使用Self-Attention + SimpleRNN，将状态向量 $h_t$ 更新为 $h_{t+1}$ 之前需要计算当前状态 $h_t$ 与 $h_i, (i=0\sim t)$ 的相关性（权重） $\alpha_{t0},\alpha_{t1},\alpha_{t2},\cdots,\alpha_{tt}$ 。
$\alpha_{ti}=align(h_i,h_t)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(2)$
$\alpha_{ti},(i=0\sim t)$ 均是介于 $0\sim 1$ 之间的实数， $\sum_{i=0}^t\alpha_{ti}=1$ 。
得到 $h_t$ 与SimpleRNN $t$ 时刻及之前所有时刻的状态 $h_0,h_1,h_2,\cdots,h_t$ 对应的权重 $\alpha_{t0},\alpha_{t1},\alpha_{t2},\cdots,\alpha_{tt}$ 之后，可以对SimpleRNN当前时刻 $t$ 及之前所有时刻的状态向量求加权平均，得到Context Vector，记为 $c_t$ ， $c_t=\alpha_{t0}h_0+\alpha_{t1}h_1+\alpha_{t2}h_2+\cdots+\alpha_{tt}h_t$ 。
得到Context Vector之后，通过如下公式更新状态：
$h_{t+1}=tanh\big(A \cdot {x_{t+1}\brack c_t}+b\big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(3)$
或
$h_{t+1}=tanh\Big(A\cdot \begin{bmatrix} h_t\\ x_{t+1}\\ c_t \end{bmatrix} +b\Big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(4)$
$c_t$ 是 $t$ 时刻及之前所有时刻状态 $h_0, h_1, h_2, \cdots, h_t$ 的加权平均，即在将状态 $h_t$ 更新为 $h_{t+1}$ 之前，Self-Attention会查看之前所有状态，因此不会遗忘之前的信息。

使用Self-Attention + SimpleRNN，状态更新过程如上图所示。初始时状态向量为 $h_0$ ，Context Vector为 $c_0$ ，一般均为全零向量，根据公式（3）或（4）可将状态 $h_0$ 更新为 $h_1$ 。再计算 $c_1$ ，然后根据公式（3）或（4）将状态 $h_1$ 更新为 $h_2$ 。再计算 $c_2$ ，然后根据公式（3）或（4）将状态 $h_2$ 更新为 $h_3$ 。不断重复该过程，计算新的Context Vector，然后生成新的状态向量，直至读取完整个输入序列。

计算Context Vector之前计算当前状态 $h_t$ 与 $h_i, (i=0\sim t)$ 的相关性（权重）方法与上文注意力机制（Attention）：Seq2Seq模型的改进【3.2 权重计算方法】部分中所述方法一致。

2.2 权重的实际意义

如下图所示，Self-Attention + RNN从左往右读取一句话，红色单词为当前输入，高亮标注单词为权重 $\alpha$ 比较大的位置。权重表明了前文中最相关词的位置，即 $\alpha$ 表明了当前的输入与前文哪些词相关性较大。

3. 参考资料链接

RuizhiHe

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
自注意力机制（Self-Attention）：从Seq2Seq模型到一般RNN模型

1. 前言本文讲解自注意力机制（Self-Attention）。本人全部文章请参见：博客文章导航目录本文归属于：NLP模型原理与应用系列前文：注意力机制（Attention）：Seq2Seq模型的改进2. 自注意力机制（Self-Attention）Seq2Seq模型一般有两个RNN网络，一个为Encoder，另一个为Decoder。Attention用于改进Seq2Seq模型，解决RNN遗忘问题。Self-Attention也叫做Intra-Attention，与Attention非常类似。
复制链接

扫一扫