Transformer注意力机制总结

最新推荐文章于 2024-05-16 23:42:22 发布

Dream Algorithm

最新推荐文章于 2024-05-16 23:42:22 发布

阅读量613

点赞数 2

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A2321161581/article/details/127723129

版权

ViT

直接上图

这个是最原始的transformer，后续出的一些transformer都是在这个基础上进行的改进。

里面的注意力机制借鉴李宏毅老师的图：

注意力分数是由query矩阵和key矩阵点成得到的。这个点乘是对全图进行处理，进行全图的自注意力。

Swintransformer

swintransformer是在ViT的基础上对全图进行了窗口化的处理。

直接上图：

论文作者处理的方式是对整张图划分为许多窗口，这样处理起来效率更高，划分为一个个窗口之后，就带有了卷积的归纳偏置的性质，在处理图片的时候收敛更快，不容易过拟合（个人理解，如有错误欢迎批评）。

还有很多transformer的其他变体，例如BoTNet：

Cross_ViT:

将图片划分为不同大小的patch，然后分别进行处理。

跨patch的注意力如图：

DynamicViT

上图：

这里特征重利用为：

关系重利用为：

这里就不仔细介绍了，有兴趣的朋友们可以去下载原文多了解一下。

原文连接：

ViT：

arXiv:2010.11929

Swintransformer：

arXiv:2103.14030

BoTNet：

https://arxiv.org/abs/2101.116Cross_ViT:

Cross_ViT:

arXiv:2103.14899

DynamicViT：

arXiv:2105.15075

还有很多transformer和卷积结合互补的文章，只要是我看过的以后也会陆续地有个小总结吧。欢迎大家关注我，及时的对我批评指正。

Dream Algorithm

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer注意力机制总结

transformer及其几种变体。
复制链接

扫一扫

Dream Algorithm CSDN认证博客专家 CSDN认证企业博客

码龄3年

42: 原创

52万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

583: 积分

63: 粉丝

139: 获赞

15: 评论

222: 收藏

私信

关注

热门文章

最新评论

使用grad_cam生成自己的模型的热力图
Dream Algorithm: 目标类别就是你想让你的网络注意力到的类别，是根据文件夹的排序定义的，第一个类别文件夹的target_category为0
特征增强自蒸馏卷积神经网络
sw10124: 不亏是石老师高徒，太厉害了
使用grad_cam生成自己的模型的热力图
weixin_43912852: 请问target_category = 4这个是什么来填写的，数据集里面没有这个
使用grad_cam生成自己的模型的热力图
weixin_48008327: 这段代码报错怎么办呢？ output = output[0] # 注意：如果模型是多输出，需要选择自己想要的输出 for i in range(len(target_category)): loss = loss + output[i, target_category[i]] 报错内容：RuntimeError: grad can be implicitly created only for scalar outputs
使用grad_cam生成自己的模型的热力图
我家楼下有条狗: 博主您好，请问这个代码可以实现在yolo上的gradcam图输出吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。