Transform：Attention--VIT--Swin_T

最新推荐文章于 2023-03-02 15:16:29 发布

少司、

最新推荐文章于 2023-03-02 15:16:29 发布

阅读量399

点赞数

分类专栏：论文文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mokeyser/article/details/124716246

版权

论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

reference：建议看李沐大神b站视频

点积式的attention机制

多头注意力机制

2、transform模型里面怎么使用注意力机制

编码器的输入的注意力

解码器的注意力

解码器的另一个注意力

3、feed forward

5、positional encoding

reference：建议看李沐大神b站视频

1、attention

点积式的attention机制

假设Q是（n，dk）维度的，K是（m，dk）维度的，点积后经过scale变换后，放到softmax中得到输出query对于key的结果（n，m）；出来的结果与V（m，dv）点积，得到一个（n，dv）的结果，每一行就是需要的一个输出。

scale是因为，dk比较大时，某两个值之间相对差距太大，其他值大部分都靠近0。不利于梯度计算

mask：是为了mask掉t时间后的k的值，具体操作是在t后面的数都换成很大的负数。

多头注意力机制

简单就是将q、k、v利用线形层投影到某一低维度，之后再concat通过linear保证维度不变，这是因为dot-procuct可学习的参数很少，但是投影层linear可以学习。

2、transform模型里面怎么使用注意力机制

编码器的输入的注意力

编码器的input，得到相同的K、Q、V，这就是自注意力

这个注意力机制，输出就是加权和，权重就是向量之间的相似矩阵

解码器的注意力

masked注意力机制，t时刻后的设置为0

解码器的另一个注意力

query是解码器里上一个attention的输出，k和v来自编码器的输出。

这个注意力的输出，就是来自value的加权和，权重取决于q和k的相似度。

3、feed forward

feed forward本质上是一个MLP，三层的。

attention+feed forward 与 rnn，如何传递序列信息。

4、embedding

输入token变换成一个向量，d是512。编码器、解码器和softmax前的embedding权重是一样的。

embedding 层权重有一个scale，乘以 $\sqrt{d_{model}}$ ，long固定住

5、positional encoding

因为attention本身没有时序，sin、cos得到512维度的向量表达位置信息，加入embedding

6、Norm

layer_norm针对是batch做的归一化，相较于BN是针对feature做的归一化

layer_norm对每个样本做均值方差，对于梯度的李普希兹常数。

为什么self-attention

原文从计算效率角度出发的

正则化

res-dropout

label_smoothing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transform：Attention--VIT--Swin_T

目录reference：建议看李沐大神b站视频1、attention点积式的attention机制多头注意力机制2、transform模型里面怎么使用注意力机制编码器的输入的注意力解码器的注意力解码器的另一个注意力3、feed forward4、embedding5、positional encoding6、Normreference：建议看李沐大神b站视频1、attention点积式的attention机制假设Q是（n，dk）维度..
复制链接

扫一扫

专栏目录

少司、 CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

55万+: 周排名

42万+: 总排名

2万+: 访问

: 等级

175: 积分

8: 粉丝

11: 获赞

16: 评论

62: 收藏

私信

关注

热门文章

分类专栏

DL 11篇
论文 6篇
计算机语言 2篇
leetcode 1篇
单片机 1篇

最新评论

CVPR2022-SemanticStyleGAN
m0_45178319: 貌似现在开源了，github上有了
单片机学习：第一篇基于Python的树莓派语音助手
Leicestercity: 支持楼主
Mip-Nerf的抗锯齿混叠
麦香猪扒饭: 我觉得首先IPE肯定是有效果的，消融实验已经可以看出IPE对于效果的影响巨大。然后我是这样理解这个IPE的：当物体较远的时候，那么我们采样的距离肯定也远，因为点的数量是不变的，所以interval会越来越大。而根据之前对于IPE的实验，interval大于频率周期，IPE会裁掉高频信号。所以远处景象会被低通滤波器过一遍，这就相当于mipmap的prefilter了。这个frustum这个感受野我觉得他也是一个低通滤波器，因为filter这类就是区域性采样的。所以这个frustum采样和IPE都起到了低通滤波器的作用。这个抗锯齿能work我觉得和这两个都有关系吧？
Mip-Nerf的抗锯齿混叠
Cuda.: 当你用近距离的图片训练，再用远距离的图片测试的时候，会出现锯齿化问题，博主认为这跟频率有关，那如果训练时用高频率，测试时用低频率编码，能够解决锯齿化问题吗
单片机学习：第一篇基于Python的树莓派语音助手
少司、: 随便拉个杜邦线

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。