Bottleneck Transformers for Visual Recognition

最新推荐文章于 2024-07-26 12:27:49 发布

Amusi（CVer）

最新推荐文章于 2024-07-26 12:27:49 发布

阅读量5k

点赞数 3

分类专栏： backbone 计算机视觉论文速递 Transformer 文章标签：人工智能计算机视觉深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amusi1994/article/details/113317633

版权

本文介绍了BoTNet，一种在ResNet的最后三个bottleneck blocks中应用全局自注意力的backbone，提升图像分类、目标检测和实例分割任务的性能。在COCO实例分割基准上，BoTNet超越了先前的最佳结果，同时在ImageNet上达到84.7％的top-1精度，比EfficientNet更快。论文、代码即将开源，且建立了CVer-Transformer交流群。

摘要由CSDN通过智能技术生成

基于Transformer的新backbone来了！在ImageNet上高达84.7％的top-1精度，性能优于SENet、EfficientNet等，将其应用于目标检测、实例分割等下游任务，涨点显著！代码即将开源！实验做得相当充分！

注1：文末附【Transformer】流群

Bottleneck Transformers for Visual Recognition
在这里插入图片描述

作者单位：UC Berkeley, 谷歌
论文：https://arxiv.org/abs/2101.11605

我们介绍BoTNet，这是一种简单却功能强大的backbone，该架构将自注意力纳入了多种计算机视觉任务，包括图像分类，目标检测和实例分割。通过仅在ResNet的最后三个bottleneck blocks中用全局自注意力替换空间卷积，并且不进行其他任何更改，我们的方法在实例分割和目标检测方面显著改善了基线，同时还减少了参数，从而使延迟最小化。

在这里插入图片描述

通过BoTNet的设计，我们还指出如何将具有自注意力的ResNet bottleneck blocks看作是Transformer块。

最低0.47元/天解锁文章

Amusi（CVer）

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。