Bottleneck Transformers for Visual Recognition阅读笔记

最新推荐文章于 2023-07-19 08:00:00 发布

Ma lidong

最新推荐文章于 2023-07-19 08:00:00 发布

阅读量1k

点赞数

分类专栏： Visual Transformer 文章标签：人工智能深度学习神经网络原力计划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41684249/article/details/115619287

版权

Visual Transformer 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

2021
Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani
https://arxiv.org/abs/2101.11605

一、简介

提出了BoTNet，它结合了多个计算机视觉任务（包括图像分类、对象检测和实例分割）的self-attention。通过在ResNet的最后三个bottleneck blocks中使用global self-attention来代替空间卷积。

该方法在实例分割和对象检测方面有显著的提升，同时减少了参数。

将具有MHSA（Multi-Head Self-Attention）层的ResNet bottleneck blocks称为 Bottleneck Transformer（BoT） blocks。

二、MHSA

在这里插入图片描述

MHSA层在2D feature maps上实现global self-attention。

MHSA使用了4个head。并且使用了相对位置编码Rh和Rw。1×1表示逐点卷积。

其中蓝色的部分是不存在于Non-Local Layer中的。

相对位置编码不仅考虑内容信息，还考虑不同位置的特征之间的相对距离。

三、模型

在这里插入图片描述

上图是网络的整体架构。ResNet共有四个阶段 [c2, c3, c4, c5]，ResNet-50四个阶段分别为 [3, 4, 6, 3]。唯一的区别是用MHSA层替换ResNet中c5阶段的三个3×3卷积。

在这里插入图片描述

我们的目标是在高性能模型中使用self-attention，考虑到内存和计算量，在feature maps分辨率最低的c5阶段使用self-attention。

ResNet的c5通常使用3个块，将每个块的3×3卷积替换成MHSA层，结构如上图所示。

在这里插入图片描述

上图是BoT Block的网络架构。其中，c5中的第一个块使用2×2并且stride为2的average pooling。

在这里插入图片描述

BoTNet-S1与BotNet的区别在于第一个BoT Block的步长是1。

四、实验

4.1 图像分类（ImageNet）

在这里插入图片描述

BoT50相对于R50虽然参数量有所减少，但是性能并没有提升。

问题的原因是处理的图像过小，因此设计了BoT-S1-50网络，该网络相比于R50有所提升。但是这种改进是以更多计算为代价的。

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
Bottleneck Transformers for Visual Recognition阅读笔记

2021Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswanihttps://arxiv.org/abs/2101.11605一、简介提出了BoTNet，它结合了多个计算机视觉任务（包括图像分类、对象检测和实例分割）的self-attention。通过在ResNet的最后三个bottleneck blocks中使用global self-attention来代替空间卷积。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ma lidong 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。