Bottleneck Transformers for Visual Recognition阅读笔记

2021
Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani
https://arxiv.org/abs/2101.11605

一、简介

提出了BoTNet,它结合了多个计算机视觉任务(包括图像分类、对象检测和实例分割)的self-attention。通过在ResNet的最后三个bottleneck blocks中使用global self-attention来代替空间卷积。

该方法在实例分割和对象检测方面有显著的提升,同时减少了参数。

将具有MHSA(Multi-Head Self-Attention)层的ResNet bottleneck blocks称为 Bottleneck Transformer(BoT) blocks。

二、MHSA

在这里插入图片描述

MHSA层在2D feature maps上实现global self-attention。

MHSA使用了4个head。并且使用了相对位置编码Rh和Rw。1×1表示逐点卷积。

其中蓝色的部分是不存在于Non-Local Layer中的。

相对位置编码不仅考虑内容信息,还考虑不同位置的特征之间的相对距离。

三、模型

在这里插入图片描述

上图是网络的整体架构。ResNet共有四个阶段 [c2, c3, c4, c5],ResNet-50四个阶段分别为 [3, 4, 6, 3]。唯一的区别是用MHSA层替换ResNet中c5阶段的三个3×3卷积。

在这里插入图片描述

我们的目标是在高性能模型中使用self-attention,考虑到内存和计算量,在feature maps分辨率最低的c5阶段使用self-attention。

ResNet的c5通常使用3个块,将每个块的3×3卷积替换成MHSA层,结构如上图所示。

在这里插入图片描述

上图是BoT Block的网络架构。其中,c5中的第一个块使用2×2并且stride为2的average pooling。

在这里插入图片描述

BoTNet-S1与BotNet的区别在于第一个BoT Block的步长是1。

四、实验

4.1 图像分类(ImageNet)

在这里插入图片描述

BoT50相对于R50虽然参数量有所减少,但是性能并没有提升。

问题的原因是处理的图像过小,因此设计了BoT-S1-50网络,该网络相比于R50有所提升。但是这种改进是以更多计算为代价的。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ma lidong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值