attention机制详解

最新推荐文章于 2024-09-13 18:10:37 发布

深圳湾刘能

最新推荐文章于 2024-09-13 18:10:37 发布

阅读量648

点赞数

分类专栏： NLP Deep Learning 文章标签： attention机制

本文链接：https://blog.csdn.net/Oscar6280868/article/details/90450431

版权

NLP 同时被 2 个专栏收录

24 篇文章 9 订阅

订阅专栏

Deep Learning

8 篇文章 1 订阅

订阅专栏

$a t t e n t i o n$ 机制一般来说会用在深度学习中，在图像处理和自然语言处理方面都有所应用，在自然语言处理中一般会用在机器翻译中，如下图所示，假设我们要翻译“机器学习”四个字：
RNN
这是一个简易的 $R N N$ 模型， $h 1 - h 4$ 是 $t 1 - t 4$ 输出的向量，这四个时刻的输入分别是“机”、“器”、“学”、“习” 四个字，这个时候我们有一个初始的输入向量 $z 0$ ，这个 $z 0$ 可以表示成搜索前面神经网络中的关键字，可以理解是 $k e y w o r d$ 。有了初始的 $k e y w o r d$ $i n p u t$ ，我们有一个 $m a t c h$ 的模块，输入是 $h 1$ 和 $z 0$ ，输出为 $\alpha _0^1$ ，公式表示为： $\alpha$ ，示意图如下所示：
RNN
这里的 $m a t c h$ 模块可以理解成一个相似度的计算模块，所以这个 $\alpha _0^1$ 表示 $z 0$ 和 $h 1$ 的相关度，可以用公式 $\alpha = {h^T} \cdot W \cdot z$ 表示，中间的 $W$ 表示一个权重矩阵。然后我们将 $z 0$ 分别和 $h 2$ 、 $h 3$ 和 $h 4$ 进行上述的操作，再加上一层 $s o f t m a x$ 操作，可以得到如下图所示：
attention
得到上图的结果之后我们用公式 $c_0 = \sum {\hat \alpha _0^i{h_i}}$ 来进行一个求和得到 $c_0$ ，过程如图所示：

这个时候，我们用 $c 0$ 和 $z 0$ 作为 $d e c o d e r$ 的输入来翻译我们的 “机器学习”，这个时候假设我们的 $\hat \alpha _0^1{\text{ = }}0.5$ ， $\hat \alpha _0^2{\text{ = }}0.5$ ， $\hat \alpha _0^3{\text{ = }}0$ ， $\hat \alpha _0^4{\text{ = }}0$ ，那么这个时候的输入 $c 0$ 的 $a t t e n t i o n$ 就集中在前两个字 “机器” 的翻译上，后两个字 “学习” 的 $a t t e n t i o n$ 就弱化，先不去翻译 “学习” 这两个字。那么示意图如下所示：
attention
然后我们将输出的 $z 1$ 再分别和 $h 1$ 、 $h 2$ 、 $h 3$ 、 $h 4$ 作为输入，再输入到 $m a t c h$ 模块中，分别输出 $\alpha _1^1$ 、 $\alpha _1^2$ 、 $\alpha _1^3$ 和 $\alpha _1^4$ ，具体示意图如下所示：

运用上述的思想，我们将 $z 1$ 分别和 $h 1$ 、 $h 2$ 、 $h 3$ 、 $h 4$ 作为输入进入 $m a t c h$ 模块，分别输出 $\alpha _1^1$ 、 $\alpha _1^2$ 、 $\alpha _1^3$ 和 $\alpha _1^4$ ，然后经过 $s o f t m a x$ 之后生成 $\hat \alpha _1^1$ 、 $\hat \alpha _1^2$ 、 $\hat \alpha _1^3$ 和 $\hat \alpha _1^4$ 。分别表示这一次需要输出的 $a t t e n t i o n$ ，假设这次输出分别是 0、0、0.5和0.5，那么我们就需要把翻译的注意力集中在 “学习” 二字上面。在 $d e c o d e r$ 中，我们结合上一轮的输出 $m a c h i n e$ 加上本轮的状态量 $z 1$ 以及本轮的 $a t t e n t i o n$ ，输出下一轮的状态 $z 2$ 和翻译结果 $l e a r n i n g$ ，在 $s e q u e n c e 2 s e q u e n c e$ 模型中，直到碰到结束标识，那么整个翻译过程就完成，这就是在深度学习中的 $a t t e n t i o n$ 机制。同样的，不仅仅在自然语言处理中，在图像处理中同样会用到 $a t t e n t i o n$ 机制，所以 $a t t e n t i o n$ 机制在深度学习中的应用也是很广泛的。
希望这篇文章能够帮助大家理解深度学习中的 $a t t e n t i o n$ 机制，谢谢。