BoTNet

最新推荐文章于 2023-10-10 02:05:30 发布

Blue_Whale2020

最新推荐文章于 2023-10-10 02:05:30 发布

阅读量2.6k

点赞数

文章标签： transformer 深度学习机器学习

本文链接：https://blog.csdn.net/blue_whale2020/article/details/122633385

版权

最近看到了这个推送，将transformer和CNN是如何相互借鉴的

里面T2T-ViT没太关注，感觉就是在PE（patch embedding）之前加入了特征提取和融合提高了计算量

主要好奇BoTNet里的这幅插图，里面的Rh和Rw是什么，这种空间位置编码挺奇特的

然后最主要的是，作者是从什么角度出发相信MHSA的方法能够work的

有关这样设计的原因

在引言是这么说的

现在在对transformer在使用上有了两个分支，分别是将MHSA替代原有的block，这种引入self-attention的方式包括local, global, vector, axial,etc。另外一种就是像VIT一样的直接把图像放在transformer里计算的，但是这两种情况是有关联的。

首先要用convnet提取特征，这样做的好处是可以灵活的缩减特征图的尺寸，convnet在学习低级和抽象的语义特征有优势

后面用self-attention在高层的特征图上处理，这些特征图尺寸较小

这样的网络设计就可以取长补短了。

有关空间位置编码

这里的空间位置编码参考了Stand- alone self-attention in vision models.这篇文章

公式是这样的