多头注意力机制基本概念

最新推荐文章于 2024-06-13 13:03:44 发布

快苏排序OAO

最新推荐文章于 2024-06-13 13:03:44 发布

阅读量1.3k

点赞数 7

分类专栏：打基础文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/Dys_debug/article/details/134644975

版权

打基础专栏收录该内容

23 篇文章 3 订阅

订阅专栏

文章目录

基本概念
模型
小结

基本概念

我们可以用独立学习得到的h组不同的线性投影来变换查询、键和值。然后，这h组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这h个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。这种设计被称为多头注意力。对于h个注意力汇聚输出，每一个注意力汇聚都被称作一个头（head）。
在这里插入图片描述

模型

每个注意力头 $h_i$ 的计算公式为
$\mathbf{h}_i = f(\mathbf W_i^{(q)}\mathbf q, \mathbf W_i^{(k)}\mathbf k,\mathbf W_i^{(v)}\mathbf v) \in \mathbb R^{p_v},$
其中q-查询、k-键、v-值。 $W_i^(q)$ 为q通过全连接层后得到的参数、 $W_i^(k)$ 为k通过全连接层后得到的参数、 $W_i^(v)$ 为v通过全连接层后得到的参数。

$f$ 为注意力汇聚函数，f内的注意力评分函数可以是加性注意力、缩放点击注意力。

多头注意力的输出需要经过另一个线性转换，它对应着h个头连结后的结果，因此其可学习参数是 $W_o$
$\begin{split}\mathbf W_o \begin{bmatrix}\mathbf h_1\\\vdots\\\mathbf h_h\end{bmatrix} \in \mathbb{R}^{p_o}.\end{split}$
基于这种设计，每个头都可能会关注输入的不同部分，可以表示比简单加权平均值更复杂的函数。

小结

多头注意力融合了来自于多个注意力汇聚的不同知识，这些知识的不同来源于相同的查询、键和值的不同的子空间表示。
基于适当的张量操作，可以实现多头注意力的并行计算。

快苏排序OAO

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
多头注意力机制基本概念

我们可以用独立学习得到的h组不同的线性投影来变换查询、键和值。然后，这h组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这h个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。
复制链接

扫一扫