YOLOv10改进 | 主干篇 | YOLOv10引入SwinTransformer替换Backbone

最新推荐文章于 2024-07-20 16:49:43 发布

小李学AI

最新推荐文章于 2024-07-20 16:49:43 发布

阅读量185

点赞数 3

分类专栏： YOLOv10有效涨点专栏文章标签： YOLO 目标检测计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tsg6698/article/details/139869548

版权

YOLOv10有效涨点专栏专栏收录该内容

88 篇文章 23 订阅 ¥69.90 ¥99.00

订阅专栏

1. SwinTransformer介绍

1.1 摘要：本文提出了一种新的视觉 Transformer，称为 Swin Transformer，它能够作为计算机视觉的通用骨干。将 Transformer 从语言适应到视觉的挑战源于两个领域之间的差异，例如视觉实体的规模差异较大，以及图像中的像素与文本中的单词相比的高分辨率。为了解决这些差异，我们提出了一个分层 Transformer，其表示是使用 Shifted windows 计算的。移位窗口方案通过将自注意力计算限制在非重叠的本地窗口，同时还允许跨窗口连接，带来了更高的效率。这种层次结构具有在各种尺度上建模的灵活性，并且具有相对于图像大小的线性计算复杂性。 Swin Transformer 的这些品质使其能够兼容广泛的视觉任务，包括图像分类（ImageNet-1K 上的 87.3 top-1 准确度）和物体检测等密集预测任务（COCO testdev 上的 58.7 box AP 和 51.1 mask AP）和语义分割（ADE20K val 上为 53.5 mIoU）。其性能在 COCO 上大大超过了之前的最先进水平，+2.7 box AP 和 +2.6 mask AP，在 ADE20K 上超过+3.2 mIoU，展示了基于 Transformer 的模型作为视觉骨干的潜力。分层设计和移位窗口方法也被证明对全 MLP 架构有益。

官方论文地址：

了解本专栏

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLOv10改进 | 主干篇 | YOLOv10引入SwinTransformer替换Backbone

这种层级化的设计不仅有助于提升模型对不同尺度特征的适应性，也使得Swin Transformer能够以线性的时间复杂度处理输入图像，与图像大小成线性关系，这显著提高了处理高分辨率图像时的计算效率。到此本文的正式分享内容就结束了，在这里给大家推荐我的YOLOv10改进有效涨点专栏，后期我会根据各种最新的前沿顶会进行论文复现，也会对一些老的改进机制进行补充，如果大家觉得本文帮助到你了，订阅本专栏，关注后续更多的更新~在SwinTransformer.py文件里添加给出的SwinTransformer代码。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。