BoTNet(CVPR 2021)速读

paper:Bottleneck Transformers for Visual Recognition

third-party implementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/layers/bottleneck_attn.py

出发点

传统的CNN通过堆叠多个卷积层来捕捉特征的全局依赖,但这种方法需要大量的计算资源。自注意力机制(如Transformer)在自然语言处理(NLP)任务中已被证明能有效建模长距离依赖,且计算效率高。因此,本文提出了一种结合卷积和自注意力的混合架构BoTNet,通过在ResNet的最后三个瓶颈块中引入多头自注意力(MHSA),在不显著增加计算开销的情况下,显著提升了实例分割和目标检测的性能。

创新点

本文的创新点就是自注意力与卷积的结合,将ResNet最后三个bottleneck block中的3x3卷积用多头自注意力层替代,这种简单的替换不仅提高了性能,还保持了较低的计算开销。

下图左边是原始的ResNet Bottleneck结构,将中间的3x3卷积替换为MHSA就得到了Bottleneck Transformer。

多头自注意力的结构如下图所示,和ViT中采用绝对位置编码的MHSA相比,这里采用了相对位置编码。

下表是ResNet-50和BoTNet-50的网络配置,只替换了c5中的3个bottleneck中的3x3卷积。

实验结果

表2是ResNet-50和BoTNet-50作为backbone,Mask R-CNN在COCO数据集上实例分割的效果比较。其中ResNet-50在ImageNet上进行了预训练,而BoTNet-50相比ResNet-50替换的层随机初始化其它不变的层也是采用在ImageNet上的预训练权重。可以看到在不同的训练epoch数下,BoTNet-50的表现都优于ResNet-50。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

00000cj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值