YOLOV8改进：CVPR2023：加入EfficientViT主干：具级联组注意力的访存高效ViT

最新推荐文章于 2024-08-31 21:33:25 发布

2025年程序设计

最新推荐文章于 2024-08-31 21:33:25 发布

阅读量366

点赞数

分类专栏： YOLOV5/YOLOV7/YOLOV8有效改进方式文章标签： YOLO pytorch 人工智能

本文链接：https://blog.csdn.net/2201_76125261/article/details/133553155

版权

YOLOV5/YOLOV7/YOLOV8有效改进方式专栏收录该内容

45 篇文章 61 订阅 ¥49.90 ¥99.00

订阅专栏

该博客介绍了如何改进YOLOv8的第一个版本，采用EfficientViT作为主干网络，通过优化内存管理和引入级联群组注意力模块，提高模型效率和性能。实验结果显示，EfficientViT在速度和准确性上超越了现有高效模型，如MobileNetV3和MobileViT。

摘要由CSDN通过智能技术生成

以YOLOv8的第一个版本进行改进

1.步骤一

2.将task.py文件中的parse_model函数替换为如下内容：

3.将task.py文件中的def _forward_once函数替换为如下代码

4.在trainer.py的118行添加如下代码

5.yaml文件

视觉变压器由于其高模型能力而取得了巨大的成功。然而，它们卓越的性能伴随着沉重的计算成本，这使得它们不适合实时应用。在这篇论文中，我们提出了一个高速视觉变压器家族，名为EfficientViT。我们发现现有的变压器模型的速度通常受到内存低效操作的限制，特别是在MHSA中的张量重塑和单元函数。因此，我们设计了一种具有三明治布局的新构建块，即在高效FFN层之间使用单个内存绑定的MHSA，从而提高了内存效率，同时增强了信道通信。此外，我们发现注意图在头部之间具有很高的相似性，从而导致计算冗余。为了解决这个问题，我们提出了一个级联的群体注意模块，以不同的完整特征分割来馈送注意头，不仅节省了计算成本，而且提高了注意多样性。综合实验表明，高效vit优于现有的高效模型，在速度和精度之间取得了良好的平衡。例如，我们的EfficientViT-M5在准确率上比MobileNetV3-Large高出1.9%，而在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别高出40.4%和45.2%。与最近的高效型号MobileViT-XXS相比，

了解本专栏