【BoTNet】Bottleneck Transformers for Visual Recognition 笔记

最新推荐文章于 2022-06-27 21:13:36 发布

zhy—bupt

最新推荐文章于 2022-06-27 21:13:36 发布

阅读量2.5k

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/salari/article/details/123278557

版权

Bottleneck Transformers for Visual Recognition

摘要

BoTNet是backbone，由自注意力机制组成

在Resnet最后三个bottleneck中用全局self-attention替代卷积

在COCO数据集上44.4%mask AP，49.7%Box AP，图像分类、实例分割、目标检测都有效

引言

在这里插入图片描述

提出的BoTNet为带有bottleneck结构的transformer块

在视觉领域使用self-attention有两个问题：1，图片太大怎么输进去；2，存储与计算太大，训练负担大

想到的方法：

使用卷积提取低分辨率特征图；
在特征图上用self-attention

只在Resnet最后三个bottleneck中用全局self-attention替代卷积

结论

表达了未来展望，如在大的数据集上使用

相关工作

本章将BoTNet对比了transformer、DETR、Non-Local

transformer

transformer采用layer noraml

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhy—bupt

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

即插即用篇 | YOLOv8 引入 MHSA 注意力机制 | 《Bottleneck Transformers for Visual Recognition》

YOLOv8项目贡献者

03-01

1573

即插即用篇 | YOLOv8 引入 MHSA 注意力机制 | 《Bottleneck Transformers for Visual Recognition》

[BoT Net] Bottleneck Transformers for Visual Recognition

Ah丶Weii

03-25

665

1. Motivation 作者认为虽然堆叠更多层可以改善backbone的性能，但是隐式的结果来建模全局依赖（global dependencies），而不需要太多层，可以成为一种powerful和scalable的方案。 Although stacking more layers indeed improves the performance of these backbones [72], an explicit mechanism to model global (non-local) de.

1 条评论您还未登录，请先登录后发表或查看评论

BoTNet:Bottleneck Transformers for Visual Recognition

pprp的博客

12-27

707

【GiantPandaCV导语】基于Transformer的骨干网络，同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet 引言本文的发展脉络如下图所示：实际上沿着Transformer Block改进的方向进行的，与CNN架构也是兼容的。具体结构如下图所示：两者都遵循了Bott

【Transformer】Bottleneck Transformers for Visual Recognition

qq_40731332的博客

03-01

1460

摘要本文提出一种backbone：BoTNet，整合self-attention适用于多种视觉任务，包括图片分类、目标检测和实例分割的网络。 BoTNet将ResNet最后三个bottleneck blocks的空间卷积替换为global self-attention。在减少参数量的同时，提高了在目标检测和实例分割上的性能。使用Mask R-CNN框架的BoTNet，在COCO实例分割数据集上，达到了44.4% Mask AP和49.7%Box AP，超过了ResNeSt。将BoTNet用于图..

Bottleneck Transformers for Visual Recognition

阿木寺的博客

01-28

5072

基于Transformer的新backbone来了！在ImageNet上高达84.7％的top-1精度，性能优于SENet、EfficientNet等，将其应用于目标检测、实例分割等下游任务，涨点显著！代码即将开源！实验做得相当充分！注1：文末附【Transformer】流群 Bottleneck Transformers for Visual Recognition 作者单位：UC Berkeley, 谷歌论文：https://arxiv.org/abs/2101.11605 我们介绍BoTNe

论文解析|Bottleneck Transformers for Visual Recognition

Akita·Wang's Semantic Segmentation

03-26

2354

先回顾一下用于视觉识别的自注意力方法，比如SANet、ViT、DETR等：本文将介绍的是视觉Transformer的新backbone，之前有代表性的Transformer主干网络有： ViT：用Transformer完全替代CNN 媲美CNN！Facebook提出DeiT：高效图像Transformer，在ImageNet上达84.4%准确率！现在有非常多的工作就是基于ViT魔改，Amusi 觉得本文分享的BoTNet 应该能助燃视觉Transformer ...

[Transformer]BoTNet：Bottleneck Transformers for Visual Recognition

qq_37151108的博客

12-23

2700

BoTNet：Bottleneck Transformers for Visual RecognitionAbstractSection ISection II Related WorkSection III MethodSection IV ExperimentsPart 1 Instance SegmentationPart 2 Relative Position EncodingPart 3 BoTNet scales well with larger imagesPart 4 Image Clas

【解析】BoTNet：Bottleneck Transformers for Visual Recognition

绿色羽毛

10-24

674

论文：https://arxiv.org/abs/2101.11605 代码：https://github.com/mlpc-ucsd/CoaT 本文将介绍的是视觉Transformer的新backbone，之前有代表性的Transformer主干网络有： ViT：用Transformer完全替代CNN 媲美CNN！Facebook提出DeiT：高效图像Transformer，在ImageNet上达84.4%准确率！现在有非常多的工作就是基于ViT魔改，Amusi 觉得本文分享的BoTNet 应该能助燃.

BottleneckTransformers:视觉识别的瓶颈变压器

03-06

视觉识别的瓶颈变压器实验模型参数（M）累积（％） ResNet50基线（） 23.5百万 93.62 BoTNet-50 1880万 95.11％ BoTNet-S1-50 1880万 95.67％僵尸网络-S1-59 2750万 95.98％ BoTNet-S1-77 4490万 ip 概括用法（示例）模型 from model import Model model = ResNet50 ( num_classes = 1000 , resolution = ( 224 , 224 )) x = torch . randn ([ 2 , 3 , 224 , 224 ]) print ( model ( x ). size ()) 模块 from model import MHSA resolution = 14 mhsa = MHSA ( plan

BottleneckTransformers-main.zip

04-23

Bottleneck Transformers for Visual Recognition，在ImageNet上高达84.7％的top-1精度，性能优于SENet、EfficientNet等，将其应用于目标检测、实例分割等下游任务，涨点显著！

【论文标题】Bottleneck Transformers for Visual Recognition

m0_58678659的博客

04-20

2269

提出了 BoTNet，这是一种概念上简单但功能强大的主干架构，它结合了用于多个计算机视觉任务的自注意力，包括图像分类、对象检测和实例分割。

深度网络架构的设计技巧(二)之BoT：Bottleneck Transformers for Visual Recognition

wqthaha的专栏

06-27

1260

Transformer一词来自本文作者之一的Ashish Vaswani，相信了解Transformer的人，都知道Original Transformer=Vaswani Transformer。ViT刚出来那会儿，简直引爆学术圈，各大CNN任务用Transformer翻一遍，就能达到SOTA，虽然现在是Transformer+自监督学习的天下。本文，向经典致敬，向大佬学习如何设计有效的深度网络，即在ResNet BottleNeck内如何引入多头注意力。.........

谷歌开源BoTNet | CNN与Transformer结合！Bottleneck Transformers for Visual Recognition！CNN+Transformer！

中科院AI算法工程师的博客

01-29

1624

新思路！ https://arxiv.org/abs/2101.11605 无需任何技巧，基于Mask R-CNNN框架，BoTNet在COCO实例分割任务上取得了44.4%的Mask AP与49.7%的Box AP指标，超越了之前由ResNeSt的最佳指标。

84.7％！BoTNet：视觉识别的Bottleneck Transformers

阿木寺的博客

01-28

1315

＜＜视觉Transformer＞＞2021：Bottleneck Transformers for Visual Recognition

金克丝的博客

12-28

2616

本专栏只研究vision Transformer的原理，对实验不做过多研究。目录摘要：一、介绍二、相关工作三、方法四、实验五、结论摘要：我们提出了BoTNet，这是一个概念简单但功能强大的主干架构，它将自注意结合到多个计算机视觉任务中，包括图像分类、目标检测和实例分割。通过在ResNet的最后三个bottleneck blocks中使用全局自注意替换空间卷积，并且不做其他改变，我们的方法在实例分割和对象检测方面显著改善了基线，同时减少了参数。通过Bo...

Bottleneck Transformers for Visual Recognition阅读笔记

Malidong的博客

04-13

1066

2021 Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani https://arxiv.org/abs/2101.11605 一、简介提出了BoTNet，它结合了多个计算机视觉任务（包括图像分类、对象检测和实例分割）的self-attention。通过在ResNet的最后三个bottleneck blocks中使用global self-attention来代替空间卷积。

轻量级网络：Bottleneck结构（沙漏型结构）