【YOLOv8改进- Backbone主干】BoTNet：基于Transformer，结合自注意力机制和卷积神经网络的骨干网络

最新推荐文章于 2024-07-24 22:58:40 发布

YOLO大师

最新推荐文章于 2024-07-24 22:58:40 发布

阅读量2.5k

点赞数 11

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO transformer cnn yolov8

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140653663

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

163 篇文章 ¥99.90 ¥299.90

订阅专栏

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

我们提出了BoTNet，这是一种概念上简单但功能强大的骨干架构，结合了自注意力机制，用于图像分类、目标检测和实例分割等多个计算机视觉任务。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积，并且没有其他更改，我们的方法显著提高了实例分割和目标检测的基线性能，同时减少了参数，且在延迟方面的开销极小。通过设计BoTNet，我们还指出带有自注意力的ResNet瓶颈块可以视为Transformer块。无需任何额外的技巧，BoTNet在使用Mask R-CNN框架时，在COCO实例分割基准上达到了44.4%的Mask AP和49.7%的Box AP，超过了之前ResNeSt [67]在COCO验证集上发布的单模型和单尺度的最好结果。最后，我们提出了BoTNet设计在图像分类中的简单适应性，生成的模型在ImageNet基准上实现了84.7%的top-1准确率，同时在TPU-v3硬件上的“计算”时间比流行的EfficientNet模型快1.64倍。我们希望这种简单而有效的方法将作为未来自注意力模型研究的强大基线。

文章链接

论文地址：论文地址

**代码地址：**代码地址

基本原理

BoTNet（Bottleneck Transformers for Visual Recognition）是一种结合自注意力机制和卷积神经网络的骨干架构，主要用于图像分类、目标检测和实例分割等视觉任务。BoTNet通过在ResNet的最后三个瓶颈块中用全局自注意力层替代空间卷积层，显著提高了基线性能，并减少了参数量，同时保持了较低的延迟。