摘要
这篇文章向大家展示如何使用FasterViT改进YoloV8,我尝试了几种方法,选出了三种效果比较好的方法推荐给大家。测试结果是在我自己标注的数据集上测得,模型选用yolov8l。代码和文章都会上传到百度网盘上,地址详见文章的最后!
论文翻译
摘要
论文链接:https://arxiv.org/pdf/2306.06189.pdf
本文设计了一种新的混合CNN-ViT神经网络族,名为FasterViT,专注于计算机视觉(CV)应用的高图像吞吐量。FasterViT结合了cnn的快速局部表示学习和ViT的全局建模特性的优点。新提出的分层注意力(HAT)方法将具有二次复杂度的全局自注意力分解为具有减少计算成本的多级注意力。我们受益于基于窗口的高效自我关注。每个窗口都可以访问参与局部和全局表示学习的专用载体Token。在高层次上,全局的自我关注使高效的跨窗口通信能够以较低的成本实现。FasterViT在精度与图像吞吐量方面达到了SOTA Pareto-front。我们已经广泛地验证了它在各种CV任务上的有效性,包括分类、目标检测和分割。我们还表明,HAT可以用作现有网络的即插即用模块并增强它们。我们进一步展示了在高分辨率图像方面比竞争对手更快、更准确的性能。代码可从https://github.com/NVlabs/FasterViT获得。
1、简介
视觉transformer (vit)[18]最近在计算机视觉中很受欢迎,并在各种应用中取得了卓越的性能,如图像分类[38,17