YoloV8改进策略:基于分层注意力的FasterViT,让YoloV8实现性能的飞跃

摘要

这篇文章向大家展示如何使用FasterViT改进YoloV8,我尝试了几种方法,选出了三种效果比较好的方法推荐给大家。测试结果是在我自己标注的数据集上测得,模型选用yolov8l。代码和文章都会上传到百度网盘上,地址详见文章的最后!
在这里插入图片描述

论文翻译

摘要

论文链接:https://arxiv.org/pdf/2306.06189.pdf
本文设计了一种新的混合CNN-ViT神经网络族,名为FasterViT,专注于计算机视觉(CV)应用的高图像吞吐量。FasterViT结合了cnn的快速局部表示学习和ViT的全局建模特性的优点。新提出的分层注意力(HAT)方法将具有二次复杂度的全局自注意力分解为具有减少计算成本的多级注意力。我们受益于基于窗口的高效自我关注。每个窗口都可以访问参与局部和全局表示学习的专用载体Token。在高层次上,全局的自我关注使高效的跨窗口通信能够以较低的成本实现。FasterViT在精度与图像吞吐量方面达到了SOTA Pareto-front。我们已经广泛地验证了它在各种CV任务上的有效性,包括分类、目标检测和分割。我们还表明,HAT可以用作现有网络的即插即用模块并增强它们。我们进一步展示了在高分辨率图像方面比竞争对手更快、更准确的性能。代码可从https://github.com/NVlabs/FasterViT获得。

1、简介

视觉transformer (vit)[18]最近在计算机视觉中很受欢迎,并在各种应用中取得了卓越的性能,如图像分类[38,17

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 20
    评论
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI智韵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值