注意力机制实现技巧

最新推荐文章于 2024-09-12 19:45:22 发布

你好，李不理

最新推荐文章于 2024-09-12 19:45:22 发布

阅读量92

点赞数 1

分类专栏：动手深度学习NLP Pytorch 文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/wLtyh/article/details/125593712

版权

Pytorch 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

动手深度学习NLP

3 篇文章 0 订阅

订阅专栏

本文详细介绍了注意力机制，包括注意力评分函数、多头注意力机制（如加性注意力和缩放点积注意力）、自注意力机制的实现技巧，以及与卷积、全连接和池化层的区别。重点讲解了如何在实际代码中高效地实现多头自注意力机制。

摘要由CSDN通过智能技术生成

提示：主要是结合李沐老师在B站的课以及《动手深度学习》做的一些笔记

文章目录

一、注意力机制

一、注意力机制

参考视频、参考代码。
不随意线索（非自主性提示）
非自主性提示是基于环境中物体的突出性和易见性。假设目前环境中有5个物品：一份报纸、一篇研究报告、一杯咖啡、一个笔记本和一本书，所有纸制品都是黑白印刷的，但是咖啡杯是红色的。很自然咖啡杯相较于其他物品来说会更加引起人们的注意，如下图所示：
![在这里插入图片描述](https://img-blog.csdnimg.cn/47a8408d8b9741e4ab2870028c243698.png
随意线索（自主性提示）
当我们想读书时，面对同样5个物体，这时我们的注意力便会放在书上。如下图所示

我的理解
以上述这个例子来说，不随意线索就是没有主观意识，主要受环境等客观因素影响；而随意线索是本身意识和认知产生，主要受主观因素影响。
注意力机制

卷积、全连接、池化层都只考虑不随意线索
注意力机制则显示的考虑随意线索
- 随意线索被称之为查询（query）
- 每个输入是一个值（value）和不随意线索（key）的对
- 通过注意力池化层来有偏向性的选择某些输入

非参注意力池化层
给定数据 $x_i, y_i)，i = 1,...,n$ ，平均池化是最简单的方案： $f(x)=\frac{1}{n}\sum_iy_i$ 。注意： $x_i, y_i)$ 是键值对， $x$ 是query（随意线索）。
更好的方案Nadaraya-Watson核回归 $f(x)=\sum_{i=1}^n\frac{K(x-x_i)}{\sum_{j=1}^nK(x-x_j)}y_i$ 注意： $x$ 是query， $x_j$ 是key， $y_i$ 是value。 $K (x)$ 是一个核函数，其基本思路是若 $x$ 和 $x_i$ 距离较近，则 $K(x-x_i)$ 越大。
若使用高斯核 $K(u)=\frac{1}{\sqrt{2π}}exp(-\frac{u^2}{2})$ ，那么有 $f(x)=\sum_{i=1}^n\frac{exp(-\frac{1}{2}{(x-x_i)^2})}{\sum_{j=1}^nexp(-\frac{1}{2}{(x-x_j)^2})}y_i\\=\sum_{i=1}^nsoftmax(-\frac{1}{2}{(x-x_i)}^2)y_i$ 参数化的注意力机制
在之前基础上引入可以学习的 $w$ $f(x)=\sum_{i=1}^nsoftmax(-\frac{1}{2}{((x-x_i)w)^2})y_i$

1.1 注意力评分函数

在这里插入图片描述
上图理解
本质就是经过注意力评分函数 $a$ 和softmax层就得到了一个注意力权重，查询和键相似度越高，注意力权重就越大，然后将注意力权重与对应键的值相乘再相加就得到了最终输出。实质就是加权平均值。
扩展到高维度
假设query $\bm{q}∈R^q$ ， $m$ 对key-value $(\bm{k}_1,\bm{v}_1),...,$ 这里 $\bm{k}_i∈R^k，\bm{v}_i∈R^v$
注意力池化层： $f(\bm{q},(\bm{k}_1,\bm{v}_1),...,(\bm{k}_m,\bm{v}_m))=\sum_{i=1}^mα(\bm{q},\bm{k}_i)\bm{v}_i∈R^v$ $α(\bm{q},\bm{k}_i)=softmax(a(\bm{q},\bm{k}_i))=\frac{exp(a(\bm{q},\bm{k}_i))}{\sum_{j=1}^mexp(a(\bm{q},\bm{k}_j))}∈R$ 其中 $a(\bm{q},\bm{k}_i)$ 是注意力分数，为常量。
Additive Attention（加性注意力）

可学参数： $\bm{W_k∈R^{h×k}},\bm{W_q∈R^{h×q}},\bm{W_v}∈R^h$ $a(\bm{k},\bm{q})=\bm{W_v}^Ttanh(\bm{W}_k\bm{k}+\bm{W}_q\bm{q})$
等价于将key和query合并起来后放入到一个隐藏层大小为h，输出大小为1的单隐藏层MLP。
Scale Dot-Product Attention（缩放点积注意力）
如果query和key都是同样的长度 $\bm{q},\bm{k}_i∈R^d$ ，那么可以 $a(\bm{q},\bm{k}_i)=<\bm{q},\bm{k}_i>/\sqrt{d}$ 除以 $\sqrt{d}$ 是减小对向量长度的敏感程度
向量化版本
- $\bm{Q}∈R^{n×d}，\bm{K}∈R^{m×d}，\bm{V}∈R^{m×v}$
- 注意力分数： $a(\bm{Q},\bm{K})=\bm{QK}^T/\sqrt{d}∈R^{n×m}$
- 注意力池化： $f=softmax(a(\bm{Q,K}))\bm{V}∈R^{n×v}$

1.2 多头注意力机制

基本思想
使用独立学习得到的h组不同的线性投影来变换查询、键和值。然后，将h组变换后的查询、键和值并行地送到注意力汇聚中。最后，将这h个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。
在这里插入图片描述
其公式解析如下：
给定查询 $q∈R^{d_q}$ 、 $键k∈R^{d_k}$ 和值 $v∈R^{d_v}$ ，每个注意力头 $h_i（i=1,...,h）$ 的计算方法为： $h_i = f(W^{(q)}_iq, W^{(k)}_ik, W^{(v)}_iv)∈R^{p_v}$ 其中可以学习的参数包括 $W^{(q)}_i∈R^{p_q×d_q}$ 、 $W^{(k)}_i∈R^{p_k×d_k}$ 和 $W^{(v)}_i∈R^{p_v×d_v}$ ，以及代表注意力汇聚的函数f。f可以是加性注意力和缩放点积注意力。多头注意力的输出需要经过另一个线性转换，它对应着 $h$ 个头连结后的结果，因此其可学习参数是 $W_o∈R^{p_o×hp_v}$ ： $W_o \begin{bmatrix} h_1 \\ ...\\...\\ h_h \\ \end{bmatrix} ∈R^{p_o}$ 这里每一个 $W^{(q)}_i、W^{(k)}_i、W^{(v)}_i$ 代表一组不同的全连接层(有多少个注意力头，就有多少组全连接层)，用来对同一组 $q 、 k 、 v$ 做线性变换。
提示
沐神代码初看起来是一个单头注意力，实则是将 $h$ 组全连接层的参数拼接起来了。

1.3 多头自注意力机制代码实现技巧讲解

自注意力机制就是查询 $q$ 、键 $k$ 、值 $v$ 都相同。现在我们假设我们有两句话，即batch_size大小为2，每句话长度为10，所以当前输入 $x$ 的shape就为(2, 10)。现在假设我们有注意力头为8个。一般在NLP来说，在输入到模型中时，我们会把每一个字映射为一个稠密向量，我们假设当前映射维度为96，所以经过“embbeding层”后，我们的输入 $x$ 维度变为了(2, 10, 96)（假设我们这里已经考虑了位置编码），按照我们的上述要求，所以有：

$q_1=k_1=v_1=q_2=k_1=v_2=...=q_8=k_8=v_8=x$
还有线性24个不同的线性变化层，如下：
$linear_{q_1}、linear_{k_1}、linear_{v_1}、...、linear_{q_8}、linear_{k_8}、linear_{v_8}$
即 $q_1$ 先通过 $linear_{q_1}$ 、 $k_1$ 通过 $linear_{k_1}$ 、 $v_1$ 通过 $linear_{v_1}$ 进行线性变化后，再采用注意力机制进行计算。这样的实现方法就很复杂。
在实际实现中，我们一般怎么实现的呢？？？
注意96*8=768，所以首先在 $x$ 经过embbeding层后我们是直接将输入 $x$ 的shape转化为(2,10,768)，看懂了吗，就是经过这个embbeding层后，我们已经将8个头的的输入 $x$ 拼接在一起了，可能有部分人会说，这样这8个头输入不就不相等了吗，其实这个不要紧，就算你相等，最后还不是经过线性层变化再用注意力机制求解的嘛，所以这是第一个技巧。
第二个技巧
因为我们有 $q 、 k 、 v$ ，目前的话我们只得到了第一个，所以我们将输入 $x$ 经过如下变换就可以得到 $q 、 k 、 v$

import torch.nn as nn
c_attn = nn.Linear(768, 3*768)
q, k, v = c_attn(x).split(768, dim=2)  # q、k、v的shape都为(2, 10, 768)

经过上述步骤后就得到了 $q 、 k 、 v$ 。然后做一个维度变换后，就可以使用注意力机制了，代码如下：

k = k.view(2, 10, 8, 768 // 8).transpose(1, 2) # (2, 8, 10, 96)
q = q.view(2, 10, 8, 768 // 8).transpose(1, 2) # (2, 8, 10, 96)
v = v.view(2, 10, 8, 768 // 8).transpose(1, 2) # (2, 8, 10, 96)