YOLOv7改进之二十五：引入Swin Transformer

人工智能算法研究院

已于 2022-11-29 11:16:48 修改

阅读量8.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： YOLO算法改进系列 YOLO系列目标检测算法创新改进方法文章标签： transformer 深度学习计算机视觉

于 2022-09-03 10:12:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70388905/article/details/126674046

YOLO系列目标检测算法创新改进方法同时被 2 个专栏收录

75 篇文章 ¥129.90 ¥299.90

订阅专栏

超级会员免费看

YOLO算法改进系列

166 篇文章

订阅专栏

本文探讨了将Swin Transformer应用于YOLOv7以解决视觉实体变化大和高分辨率图像计算量大的问题。通过引入滑窗操作的层次设计，实现了局部注意力计算，兼顾CNN的局部性和Transformer的全局视野，同时降低了计算复杂度。Swin Transformer在图像分类、目标检测和语义分割等任务上的优秀表现，验证了其作为视觉主干网络的潜力。作者计划进一步实验并分享更多深度学习算法的改进方法。

前言：作为当前先进的深度学习目标检测算法YOLOv7，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv7的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv7，YOLOv5算法2020年至今已经涌现出大量改进论文，这个不论对于搞科研的同学或者已经工作的朋友来说，研究的价值和新颖度都不太够了，为与时俱进，以后改进算法以YOLOv7为基础，此前YOLOv5改进方法在YOLOv7同样适用，所以继续YOLOv5系列改进的序号。另外改进方法在YOLOv5等其他算法同样可以适用进行改进。希望能够对大家有帮助。

具体改进办法请关注后私信留言！

解决问题：

目前Transformer应用到图像领域主要有两大挑战：

视觉实体变化大，在不同场景下视觉Transformer性能未必很好
图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大

针对上述两个问题，我们提出了一种包含滑窗操作，具有层级设计的Swin Transformer。

其中滑窗操作包括不重叠的local window，和重叠的cross-window。将注意力计算限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量

了解本专栏

超级会员免费看

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能算法研究院 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。