Attention的矩阵表示及理解

最新推荐文章于 2024-02-26 11:21:56 发布

FrenchOldDriver

最新推荐文章于 2024-02-26 11:21:56 发布

阅读量2.7k

点赞数 1

分类专栏：自然语言处理文章标签： pytorch 机器学习深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/OldDriver1995/article/details/117562272

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Attention两篇文章链接：其中一个是Luong,提的dot product attention，另一个是Vaswali的scaled dot product attention ，也就是大名鼎鼎的attention is all you need。

说到attention不再过多赘述，论文中的公式推导感觉比较简单，结合自己的理解写一下矩阵层面的表示。数学好的可以跳过。

在attention is all you need这篇文章中，他是这么写的：
$softmax(\frac{QK^T}{\sqrt{d_k}})V$ ，而Luong那篇文章中，公式比较多且分散。
但无论如何，大致总结是（看下图），先算attention score（Q，K相乘），再用softmax算distribution，再把distribution和hidden state相乘获得attention output（最上面那个MatMul），再把output和另一个hidden相加（concat）。在这里插入图片描述

这里以seq2seq模型中的attention为例。

首先我们有encoder hidden state的一个序列: $H =[h_1, h_2, ...h_N]$
然后有 $t$ 时刻的decoder state $s^t$ , 所有时刻的decoder state就是 $S=[s^1, s^2, ..., s^t]$ 。
每次用所有的encoder hidden state去和当前时刻的decoder state相乘（dot product）

对于 $t$ 时刻而言的attention score就是用 $e^t = [h_1^Ts^t, h_2^Ts^t, ..., h_N^Ts^t]$ ，
但实际在计算中，我们是把整个decoder hidden state和encoder hidden state乘起来，而不是像循环一样对每个时刻都依次计算
$\left[ \begin{matrix} h_1^Ts^1 & h_2^Ts^1, &..., &h_N^Ts^1 \\ \vdots & \vdots &\ddots &\vdots\\ h_1^Ts^{t-1} & h_2^Ts^{t-1}, &..., &h_N^Ts^{t-1}\\ h_1^Ts^t & h_2^Ts^t, &..., &h_N^Ts^t \end{matrix} \right] = \left[ \begin{matrix}s^1\\ s^2\\ \vdots\\ s^t \end{matrix} \right] \cdot \left[ \begin{matrix} h_1^T & h_2^T & \cdots & & h_N^T \end{matrix} \right] \ (1)$

这里看不懂没关系，先看下一步如何计算attention distribution的计算，这里其实就是用softmax把 $e^t$ 中的每个元素映射到[0,1]之间并且总和为1:
$\alpha^t = softmax(e^t)$

如果用矩阵的方式表示其实就是
$[\alpha^1, \alpha^2, ..., \alpha^t]^T$ 其中e的右上标是时刻 $t$ 的意思, 而不是指数。其中每一个 $\alpha$ 都是一个1堆概率，长度为N，，也就是encoder hidden state的长度，并且每一个 $\alpha$ 总和为1。

下一步是将attention distribution和encoder hidden state相乘获得attention output, 即把每一个 $\alpha$ 中的每一个概率和对应位置的encoder hidden state相乘，再求和：
$a_t = \Sigma_{i=1}^N\alpha_i^th_i = [\alpha_1^t, \alpha_2^t, \alpha_3^t, ... \alpha_i^t] \cdot \left[ \begin{matrix}h_1 \\ h_2\\ h_3\\ \vdots\\ h_i\end{matrix} \right]$
这个操作对应于下图的encoder recurrent layer指向attention distribution的那条红线，以及Attention distribution指向Attention output的黑线以及最上面的三角形。
在这里插入图片描述
把每个时刻的 $a_t$ 都放到一起的话：
$[a_1, a_2, a_3, ..., a_t]^T = \left[ \begin{matrix} a_1\\ a_2\\ \vdots\\ a_t \end{matrix} \right] = \left[ \begin{matrix} \alpha_1^1 & \alpha_2^1 & \cdots & \alpha_i^1\\ \alpha_1^2 & \alpha_2^2 & \cdots & \alpha_i^2\\ \vdots & \vdots & \ddots& \vdots\\ \alpha_1^t & \alpha_2^t & \cdots & \alpha_i^t\end{matrix} \right] \cdot \left[ \begin{matrix} h_1 \\h_2 \\ \vdots\\ h_i \end{matrix} \right] \\=Softmax(E) \cdot H^T \\=Softmax(S \cdot H^T) \cdot H^T$

A中的每一个 $a_t$ 是当前 $t$ 时刻的attention output，需要和对应时刻的decoder state的s^t执行concat操作。如下图
在这里插入图片描述
写成公式就是 $concat[a_t, s_t]$ ，然后对每一个时刻的decoder state都执行这样的操作，其实就是concat(A, S)，其中A就是 $[a_1, a_2, ..., a_t] = \left[ \begin{matrix}\Sigma_{i=1}^N\alpha_i^1h_i & \Sigma_{i=1}^N\alpha_i^2h_i & ... &\Sigma_{i=1}^N\alpha_i^th_i\end{matrix} \right]$ , 而S就是 $s_1, s_2, ..., s_t]$

所以最后的attention就等于 $\cdot H^T) \cdot H^T, S)$

翻译成代码，我们只需要知道S，H，并且写一个矩阵乘法，softmax和concat即可，在pytorch中分别可以通过torch.bmm(), F.softmax(), torch.cat()实现。

遇到不同的attention score计算方式，只需要修改Softmax中的计算即可，比如我要用scaled dot product， softmax层里面就是 $S\cdot H^T/\sqrt{n}$ 其中n是input的长度, 其他地方不需要修改。

FrenchOldDriver

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Attention的矩阵表示及理解

说到attention这里不再过多赘述，首先我们有encoder hidden state的一个序列: h1,h2,...hNh_1, h_2, ...h_Nh1,h2,...hN然后有 ttt 时刻的decoder state sts^tst。每次用所有的encoder hidden state去和当前位置的decoder state相乘对于ttt时刻而言的attention score就是用et=[h1Tst,h2Tst,...,hNTst]e^t = [h_1^Ts^t, h_2^Ts^
复制链接

扫一扫