CoAtNet: 90.88% Paperwithcode榜单第一，层层深入考虑模型设计

*pprp*

于 2022-01-08 18:26:07 发布

阅读量2.7k

点赞数

分类专栏：深度学习 Transformer 论文总结文章标签：深度学习 transformer 计算机视觉

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/dd_pp_jj/article/details/122382249

版权

【GiantPandaCV导语】CoAt=Convolution + Attention，paperwithcode榜单第一名，通过结合卷积与Transformer实现性能上的突破，方法部分设计非常规整，层层深入考虑模型的架构设计。

引言

Transformer模型的容量大，由于缺乏正确的归纳偏置，泛化能力要比卷积网络差。

提出了CoAtNets模型族：

深度可分离卷积与self-attention能够通过简单的相对注意力来统一化。
叠加卷积层和注意层在提高泛化能力和效率方面具有惊人的效果

方法

这部分主要关注如何将conv与transformer以一种最优的方式结合：

在基础的计算块中，如果合并卷积与自注意力操作。
如何组织不同的计算模块来构建整个网络。

合并卷积与自注意力

卷积方面谷歌使用的是经典的MBConv，使用深度可分离卷积来捕获空间之间的交互。

卷积操作的表示： $\mathcal{L}(i)$ 代表i周边的位置，也即卷积处理的感受野。

$y_{i}=\sum_{j \in \mathcal{L}(i)} w_{i-j} \odot x_{j} \quad \text { (depthwise convolution) }$

自注意力表示： $\mathcal{G}$ 表示全局空间感受野。

$y_{i}=\sum_{j \in \mathcal{G}} \underbrace{\frac{\exp \left(x_{i}^{\top} x_{j}\right)}{\sum_{k \in \mathcal{G}} \exp \left(x_{i}^{\top} x_{k}\right)}}_{A_{i, j}} x_{j} \quad \text { (self-attention) }$

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

*pprp* 如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。