CNN+Transformer！谷歌提出BoTNet：新主干网络！在ImageNet上达84.7%准确率！

最新推荐文章于 2024-10-05 08:45:00 发布

Amusi（CVer）

最新推荐文章于 2024-10-05 08:45:00 发布

阅读量3.7k

点赞数 2

文章标签：计算机视觉人工智能编程语言微软深度学习

本文链接：https://blog.csdn.net/amusi1994/article/details/113362405

版权

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

前言

现在几乎所有大厂、高校都有团队在研究视觉Transformer的工作，这里Amusi 建议大家不管你有没有想到应用的方向和场景，但都要学习一下Transformer相关知识点。

强烈推荐小白看一下这两篇视觉Transformer综述：

先回顾一下用于视觉识别的自注意力方法，比如SANet、ViT、DETR等：

本文将介绍的是视觉Transformer的新backbone，之前有代表性的Transformer主干网络有：

现在有非常多的工作就是基于ViT魔改，Amusi 觉得本文分享的BoTNet 应该能助燃视觉Transformer 这把火！

BoTNet

基于Transformer的新backbone来了！在ImageNet上高达84.7％的top-1精度，性能优于SENet、EfficientNet等，将其应用于目标检测、实例分割等下游任务，涨点显著！代码即将开源！实验做得相当充分！

Bottleneck Transformers for Visual Recognition

作者单位：UC Berkeley, 谷歌
论文：https://arxiv.org/abs/2101.11605

BoTNet：一种简单却功能强大的backbone，该架构将自注意力纳入了多种计算机视觉任务，包括图像分类，目标检测和实例分割。该方法在实例分割和目标检测方面显著改善了基线，同时还减少了参数，从而使延迟最小化。

通过仅在ResNet中，用Multi-Head Self-Attention (MHSA)来替换3 × 3 convolution，并且不进行其他任何更改（如图1所示）。

Multi-Head Self-Attention (MHSA) 究竟长啥样？如下图所示：

上述介绍了核心内容：Bottleneck Transformer (BoT) block，是不是非常大道至简？将ResNet-50与BoT结合，诞生了BoTNet-50，结构如下表所示：

BoT-50和ResNet-50的性能比较如下表所示：

上述比较实验，其实无法看出BoT的明显优势，但加入 multi-scale jitter之后，性能提升明显！如下表所示：

加入 relative position encodings ，还能进一步提升性能！

本文还对BoT block的位置进行详尽实验，发现不同位置/组合性能有所差异

实验结果

注：实验做的相当充分，建议去看原文，实验表格相当之多！

用于图像分类的BoTNet又进行了改版升级：BoTNet-S1 (S1 to depict stride 1 in the final blockgroup）

BoTNet-S1-128版本在ImageNet上高达84.7％的top-1精度！

在使用Mask R-CNN框架的情况下，BoTNet在COCO实例分割基准上实现了44.4％的Mask AP和49.7％的Box AP。超过了以前在COCO验证集上评估的ResNeSt的最佳单一模型和单一尺度结果。

BoTNet论文下载

后台回复：BoTNet，即可下载上述论文PDF！

CV资源下载

后台回复：Transformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

重磅！CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，才能通过且邀请进群