YoloV8改进策略：基于双层路由注意力的视觉Transformer提升YoloV8的检测能力

AI智韵

已于 2023-05-18 19:55:01 修改

阅读量1.9k

点赞数 2

分类专栏： YoloV8最新改进手册——高阶篇文章标签： YOLO transformer 深度学习

于 2023-04-26 21:41:37 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/130394861

版权

YoloV8最新改进手册——高阶篇专栏收录该内容

该专栏为热销专栏榜第27名

147 篇文章 197 订阅 ¥199.00 ¥99.90

订阅专栏

文章目录

摘要
论文翻译
源码
改进一
- 改进方法：在Bottleneck增加BiLevelRoutingAttention
- 运行结果
改进二：在C2F中增加BiLevelRoutingAttention
- 改进源码
- 运行结果
改进三：只在主干网路上增加BiLevelRoutingAttention
- 改进源码
- 运行结果
改进四：在主干网络的C2F模块后增加BiLevelRoutingAttention注意力机制
- 改进方法
- 运行结果
Win环境遇到的问题
总结

摘要

本文使用2023年最新提出的BiFormer，实现对YoloV8的改进。目前，BiFormer还有在显存占用，还有性能存在问题。我们先试试效果，期待作者在Pytoch上早日实现优化。

论文翻译

摘要

论文链接：https://arxiv.org/abs/2303.08810
代码链接：https://github.com/rayleizhu/BiFormer

作为视觉transformer的核心构建模块，注意力是捕捉长程依赖关系的强大工具。然而，这种能力是有代价的:它会带来巨大的计算负担和内存占用，因为要计算所有空间位置上的成对token交互。一系列工作试图通过将手工制作的和内容无关的稀疏性引入注意力来缓解这个问题，例如将注意力操作限制在局部窗口、轴向条纹或膨胀窗口内。与这些方法相比，本文提出了一种新的通过双层路由的动态稀疏注意力，以实现具有内容感知的更灵活的计算分配。具体来说，对于一个查询，首先在粗粒度的区域级别上过滤掉不相关的键值对，然后在剩余的候选区域(即路由区域)中应用细粒度的token-to-token attention。本文提供了所提出的双层路由注意力的一个简单而有效的实现，利用稀疏性来节省计算和内存，同时只涉及gpu友好的密集矩阵乘法。用所提出的双层路由注意力建立了一个新的通用视觉transformer，称为BiFormer。由于BiFormer以查询自适应的方式关注一小部分相关标记，而不会分散其他不相关标记的注意力，因此它具有良好的性能和较高的计算效率，特别是在密集预测任务中。在图像分类、目标检测和语义分割等计算机视觉任务中的经验结果验证了所设计的有效性。代码可以在https://github.com/rayleizh

了解本专栏

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
3
评论
YoloV8改进策略：基于双层路由注意力的视觉Transformer提升YoloV8的检测能力

本文使用2023年最新提出的BiFormer，实现对YoloV8的改进。目前，BiFormer还有在显存占用，还有性能存在问题。我们先试试效果，期待作者在Pytoch上早日实现优化。论文链接：https://arxiv.org/abs/2303.08810代码链接：https://github.com/rayleizhu/BiFormer作为视觉transformer的核心构建模块，注意力是捕捉长程依赖关系的强大工具。
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智韵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。