【跟李沐学AI 动手学深度学习】注意力机制笔记

Jun-llj

已于 2023-12-11 13:08:43 修改

阅读量149

点赞数

分类专栏：跟李沐学AI——动手学深度学习文章标签：人工智能深度学习学习笔记

于 2023-08-15 21:25:28 首次发布

本文链接：https://blog.csdn.net/qq_53223504/article/details/132307532

版权

跟李沐学AI——动手学深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1. Summary

1.1 心理学背景

心理学框架：

你的面前有黑白色的报纸、A4纸、书本，和一个红色杯子

由于红色杯子很显眼，你一眼就会注意到它，不需要思考，所以它是不随意线索

如果你想看报纸，所以你看到了报纸，所以这个报纸是随意线索

1.2 注意力机制概述

卷积、全连接、池化层都只考虑不随意线索（直接把最大的值抽出来）
注意力机制考虑随意线索
1. 随意线索被称为查询（query）
2. 每个输入是一个值（value）和不随意线索（key）的对
3. 通过注意力池化层，根据query，有偏向（权重）地去选择某些输入
4. 一般写作 $f(x)=\sum_{i}\alpha(x, x_i)y_i$ ，此处的 $\alpha(x, x_i)$ 是注意力权重

1.3 非参注意力池化层

非参即不学习参数

首先给定数据（Xi，Yi）

最简单的方案是平均池化：f(x) = ΣYi/n

Nadaraya-Watson核回归：

更好的方案是Nadaraya-Watson核回归：K是衡量x和xi的函数，式子的目的是找出和y最相近的数字

在这里插入图片描述

使用高斯核： $K(u)=\frac{1}{\sqrt 2}exp(-\frac{u^2}{2})$

则

$f(x)=\sum_{i=1}^n\frac{exp\Big(-\frac{1}{2}(x-x_i)^2)\Big)}{\sum_{j=1}^nexp\Big(-\frac{1}{2}(x-x_i)^2)\Big)}y_i\newline=\sum_{i=1}^nsoftmax\Big(-\frac{1}{2}(x-x_i)^2\Big)y_i$

1.4 参数化的注意力机制

在之前学习的基础上引入可以学习的w

$f(x)=\sum_{j=1}^nsoftmax\Big(-\frac{1}{2}((x-x_i)w)^2)\Big)y_i$

2. 注意力分数

上述提到的 $f(x)=\sum_{i=1}^nsoftmax\Big(-\frac{1}{2}(x-x_i)^2\Big)y_i$ ，其中的 $\frac{1}{2}(x-x_i)^2$ 就是注意力分数

假设query q，有m对key-value(k，v)

则注意力池化层为：

$f\Big(q,(k_1,v_1),···,(k_m,v_m)\Big)=\sum_{i=1}^msoftmax\Big(\alpha(q, k_i)\Big)v_i$ ，其中的 $\alpha(q, k_i)$ 就是注意力分数

Additive Attention

query、key长度不一致

可学参数： $W_k，W_q，v$

$\alpha(q, k_i)=v^Ttanh(W_kh+W_qq)$ ，h为激活函数

等价于把query和key合并起来后放入到一个隐藏大小为h，输出大小为1的单隐藏层MLP

Scaled Dot-Product Attention

query、key长度一致

长度为d，尖括号为内积，即求两个向量夹角余弦值

$\alpha(q, k_i)=\langle q，k_i \rangle/ \sqrt d$

向量版本：

$\alpha(Q, K)=QK^T\sqrt d$

3. 使用注意力机制的seq2seq

seq2seq详见我的另一个文章

在机器翻译中，每个生成的词可能相关与源句子中不同的词

而seq2seq模型中，解码器的初始隐状态是编码器最后时间步的隐状态，看不到前面词语的输入，因此不能直接建模，所以需要向其中加入注意力机制

编码器对每次词的输出作为key和value
解码器RNN对上一词的输出是query
注意力的输出和下一个词的词嵌入合并进入RNN

因为RNN的输出都是在同一个语义空间中，key和value是RNN的输出，所以用解码器RNN的输出而不是embedding的输入

在这里插入图片描述

4. self-attention自注意力

给定序列 $x_1,···,x_n$

自注意力池化层将 $x_i$ 又当key，又当value，又当query来对虚列抽取特征得到 $y_1,···,y_n$ ，其中 $y_i=f\Big(x_i,(x_1,x_1),···,(x_n,x_n)\Big)$

CNN、RNN和自注意力都可以用于处理序列

CNN：把序列当作一维的数据

	CNN	RNN	自注意力
计算复杂度	$O(knd^2)$	$O(nd^2)$	$O(n^2d)$
并行度	$O (n)$	$O (1)$	$O (n)$
最长路径	$O (n /2 k)$	$O (n)$	$O (1)$

位置编码

跟CNN、RNN不同，自注意力不记录位置信息，想要加入位置信息，则需要位置编码

位置编码将位置信息注入到输入中

假设位置编码矩阵为P，序列为X，则X+P作为自编码输入

Jun-llj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【跟李沐学AI 动手学深度学习】注意力机制笔记

卷积、全连接、池化层都只考虑不随意线索（直接把最大的值抽出来）注意力机制考虑随意线索随意线索被称为查询（query）每个输入是一个值（value）和不随意线索（key）的对通过注意力池化层，根据query，有偏向（权重）地去选择某些输入一般写作fx∑iαxxiyifx∑iαxxiyi，此处的αxxiαxxi是注意力权重。
复制链接

扫一扫