Transformer详解之：Encoder Attention的公式化理解

最新推荐文章于 2024-07-14 17:03:54 发布

暖仔会飞

最新推荐文章于 2024-07-14 17:03:54 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习与深度学习文章标签： transformer 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42902997/article/details/127318970

版权

机器学习与深度学习专栏收录该内容

65 篇文章 38 订阅

订阅专栏

文章目录

Transformer Encoder Attention

Transformer Encoder Attention

回顾一下，在上一篇文章中我们说了 Encoder 端的 attention
我们的结论是， $\vec{q}, \vec{k}, \vec{v}$ 三个向量是对当前的某个词向量 $\vec{v_i}$ 投影到另外一个空间，然后和其他的词向量（包括自己）计算相似度。通过 $\vec{q},\vec{k}$ 计算出的是标量值，代表某个词向量与当前词向量的近似度；这些标量值与当前词 $\vec{v_i}$ 分别相乘最后相加，得到的一个新的向量 $\vec{o}$ 这个向量就是编码了 $v_i$ 和当前句子其他词（包括自己）的关系的编码向量。
下面我尽可能简洁清晰地给大家一个场景来更好地理解这个过程。
假设一句话中每个 token 用 $x$ 表示，当前这句话包含 $s$ 个 token， $X$ 表示当前这句话； $X=\{x_1,x_2,...x_i,...x_{s}\}$ ，每个 token 的维度是 $m$ 。
$\vec{q},\vec{k},\vec{v}$ 是通过线性层（linear）获得的 $5$ 维向量（将 $m$ 维信息在 $5$ 维空间中进行投影，至于为什么这么投影，请参考上一篇文章）
$\vec{q}, \vec{k}, \vec{v} \in \mathbb{R}^{5}$ ；对于一个 token $x_i$ 他的 $q_i$ 首先与所有的 $\vec{k_1},...\vec{k_{s}}$ 进行点积，即：
$q_i K^T= q_i\begin{bmatrix} \vec{k_1} \\ \vec{k_2} \\ ...\\ \vec{k}_{{s}} \end{bmatrix}^T \tag{1}=\vec{q_i} \begin{bmatrix} \vec{k_1} & \vec{k_2} & ... & \vec{k_{s}} \end{bmatrix}=\vec{w_i} \in \mathbb{ R^{1 \times s}}$
如果一句话中的所有 token 都重复这个过程，也就是把 $s$ 个词就可以表示成一个矩阵 $Q$ ，矩阵 $Q$ 中的每一行都是一个 $q_i$ 完成相同的操作：
$Q=\begin{bmatrix} \vec{q_1} \\ \vec{q_2} \\ ...\\ \vec{q}_{{s}} \end{bmatrix}$
$K^T= Q\begin{bmatrix} \vec{k_1} \\ \vec{k_2} \\ ...\\ \vec{k}_{{s}} \end{bmatrix}^T \tag{2}=\begin{bmatrix} \vec{q_1} \\ \vec{q_2} \\ ...\\ \vec{q}_{{s}} \end{bmatrix} \begin{bmatrix} \vec{k_1} & \vec{k_2} & ... & \vec{k_{s}} \end{bmatrix}=W = \begin{bmatrix} \vec{w_1} \\ \vec{w_2} \\ ...\\ \vec{w}_{{s}} \end{bmatrix} \in \mathbb{ R^{s \times s}}$
其中 $W$ 中的每一行的 $w_i$ 代表的都是第 $i$ 个词和其他所有 token 的权重向量（即，组成 $\vec{w_i}$ 向量中的每个维度上的标量值 $\vec{w_i}=[w_{i1}, w_{i2}, ... w_{i5}]$ 都代表当前的 token 到其他某个 token 的权重值。）
如果我们看其中的一个权重向量 $\vec{w_i}$ 当他与所有的 $\vec{v_1},...\vec{v_{s}}$ 进行相乘时，我们想让 $\vec{w_i} \in \mathbb{R^{s}}$ 中每个维度的标量值对应地乘到每个 $v_{i}$ 向量上（强调：是 $\vec{w_i}$ 中的每个标量值与对应的一整个 $\vec{v_i}$ 相乘，而不是 $\vec{v_i}$ 中的某个标量，只有这样才能体现这个权重对 $\vec{v_i}$ 整体的影响。）
$\vec{w_i} V= \vec{w_i} \begin{bmatrix} \vec{v_1} \\ \vec{v_2} \\ ...\\ \vec{v}_{{s}} \end{bmatrix}\tag{3}\in \mathbb{R^{(1\times s) \times (s \times 5) \rightarrow 1\times 5}}$
这样就实现了给每一个token $\vec{v_i}$ 一个权重值，并将他们加权求和，最终构成的向量 $\vec{o_i}$ 还是一个 $\mathbb{R^{5}}$ 。
截止目前我们终于将一个 $\vec{q_i}$ 和其他所有 token 的权重关系表示在了这个 $5$ 维的向量空间中。
因此当这个过程从一个 $\vec{w_i}$ 向量扩展到 $\in \mathbb{R^{s \times 5}}$ 矩阵也就可以得到:
$=QK^TV=W \begin{bmatrix} \vec{v_1} \\ \vec{v_2} \\ ...\\ \vec{v}_{{s}} \end{bmatrix}\tag{3}\in \mathbb{R^{(s\times s) \times (s \times 5) \rightarrow s\times 5}}$
这个最中结果的矩阵可以表示为 $O$ ， $O$ 的每一行都是一个 $q_i$ 与其他的 $q_k (k\neq i)$ 的关系的向量。

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

暖仔会飞 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。