自注意机制论文学习: On the Relationship between Self-Attention and Convolutional Layers

最新推荐文章于 2023-04-23 15:33:48 发布

田田天天甜甜

最新推荐文章于 2023-04-23 15:33:48 发布

阅读量2k

点赞数 1

分类专栏：论文学习

本文链接：https://blog.csdn.net/qq_39751437/article/details/107613940

版权

背景

transformer的提出对NLP领域的研究有很大的促进作用，得益于attention机制，特别是self-attention，就有研究学者将attention/self-attention机制引入计算机视觉领域中，也取得了不错的效果[1][2]。该论文[4]侧重于从理论和实验去验证self-attention[3]可以代替卷积网络独立进行类似卷积的操作，给self-attention在图像领域的应用奠定了坚实的基础

论文理论部分

（1）多头自注意机制

定义 $X\in \mathbb{R}^{T\times D{in}}$ 为输入矩阵，包含 $T$ 个 $D{in}$ 维的token，在NLP中，token对应着序列化的词，同样地也可以对应序列化的像素（关键对应：像素对应词）
在这里插入图片描述
self-attention layer从 $D{in}$ 到 $D{out}$ 的计算如上图所示， $A$ 为attention scores，softmax将score转换为attention probabilities。该层的参数包含查询矩阵(query matrix) $W{qry}\in \mathbb{R}^{D{in}\times Dk}$ ，关键词矩阵(key matrix) $W{key}\in \mathbb{R}^{D{in}\times D_k}$ ，值矩阵(value matrix) $W{val}\in \mathbb{R}^{D{in}\times D{out}}$ ，都用于对输入进行变化，基本跟NLP中的self-attention一致，词序列对应于像素序列。

在这里插入图片描述
因为只考虑相关性，self-attention一个很重要的属性是，不管输入的顺序如何改变，输出都是不变的（引出位置编码），这对于希望顺序对结果有影响的case影响很大，因此在self-attention基础上为每个token学习一个positional encoding参数， $P\in \mathbb{R}^{T\times D_{in}}$

最低0.47元/天解锁文章

田田天天甜甜

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
自注意机制论文学习: On the Relationship between Self-Attention and Convolutional Layers

背景transformer的提出对NLP领域的研究有很大的促进作用，得益于attention机制，特别是self-attention，就有研究学者将attention/self-attention机制引入计算机视觉领域中，也取得了不错的效果[1][2]。该论文[4]侧重于从理论和实验去验证self-attention[3]可以代替卷积网络独立进行类似卷积的操作，给self-attention在图像领域的应用奠定了坚实的基础论文理论部分（1）多头自注意机制定义X∈RT×DinX\in \math
复制链接

扫一扫

专栏目录