BoTNet

最新推荐文章于 2023-09-05 00:05:09 发布

Blue_Whale2020

最新推荐文章于 2023-09-05 00:05:09 发布

阅读量2.6k

点赞数

文章标签： transformer 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Blue_Whale2020/article/details/122633385

版权

最近看到了这个推送，将transformer和CNN是如何相互借鉴的

里面T2T-ViT没太关注，感觉就是在PE（patch embedding）之前加入了特征提取和融合提高了计算量

主要好奇BoTNet里的这幅插图，里面的Rh和Rw是什么，这种空间位置编码挺奇特的

然后最主要的是，作者是从什么角度出发相信MHSA的方法能够work的

有关这样设计的原因

在引言是这么说的

现在在对transformer在使用上有了两个分支，分别是将MHSA替代原有的block，这种引入self-attention的方式包括local, global, vector, axial,etc。另外一种就是像VIT一样的直接把图像放在transformer里计算的，但是这两种情况是有关联的。

首先要用convnet提取特征，这样做的好处是可以灵活的缩减特征图的尺寸，convnet在学习低级和抽象的语义特征有优势

后面用self-attention在高层的特征图上处理，这些特征图尺寸较小

这样的网络设计就可以取长补短了。

有关空间位置编码

这里的空间位置编码参考了Stand- alone self-attention in vision models.这篇文章

公式是这样的

其中

也就是说 Q和k 以及空间位置编码都算了一遍，分别是 content-content 和content-position

这样也和最上面的那张图对应起来了

Rh和Rw使用的是相对位置编码

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
BoTNet

最近看到了这个推送，将transformer和CNN是如何相互借鉴的里面T2T-ViT没太关注，感觉就是在PE（patch embedding）之前加入了特征提取和融合提高了计算量主要好奇BoTNet里的这幅插图，里面的Rh和Rw是什么，这种空间位置编码挺奇特的然后最主要的是，作者是从什么角度出发相信MHSA的方法能够work的有关这样设计的原因在引言是这么说的现在在对transformer在使用上有了两个分支，分别是将MHSA替代原有的block，这种引入self-
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。