YOLOv10改进 | 主干篇 | YOLOv10引入MobileViTv2替换Backbone

最新推荐文章于 2024-07-25 11:07:00 发布

小李学AI

最新推荐文章于 2024-07-25 11:07:00 发布

阅读量159

点赞数 5

分类专栏： YOLOv10有效涨点专栏文章标签： YOLO 目标检测计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tsg6698/article/details/140200745

版权

YOLOv10有效涨点专栏专栏收录该内容

88 篇文章 25 订阅 ¥69.90 ¥99.00

订阅专栏

1. MobileViTv2介绍

1.1 摘要：移动视觉转换器 (MobileViT) 可以在多个移动视觉任务（包括分类和检测）中实现最先进的性能。尽管这些模型的参数较少，但与基于卷积神经网络的模型相比，它们具有较高的延迟。 MobileViT 的主要效率瓶颈是 Transformer 中的多头自注意力 (MHA)，这需要相对于令牌（或补丁）k 数量的 O(k2) 时间复杂度。此外，MHA 需要昂贵的操作（例如，批量矩阵乘法）来计算自注意力，从而影响资源受限设备上的延迟。本文介绍了一种具有线性复杂度的可分离自注意力方法，即 O(k)。该方法的一个简单而有效的特点是它使用逐元素操作来计算自注意力，使其成为资源受限设备的良好选择。改进后的模型 MobileViTv2 在多个移动视觉任务上都是最先进的，包括 ImageNet 对象分类和 MS-COCO 对象检测。 MobileViTv2 拥有约 300 万个参数，在 ImageNet 数据集上实现了 75.6% 的 top-1 准确率，比 MobileViT 高出约 1%，同时在移动设备上的运行速度提高了 3.2 倍。

官方论文地址：https://arxiv.org/pdf/2206.02680

官方代码地址：

了解本专栏

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLOv10改进 | 主干篇 | YOLOv10引入MobileViTv2替换Backbone

尽管这些模型的参数较少，但与基于卷积神经网络的模型相比，它们具有较高的延迟。该模块基于原始的MobileViT架构进行了改进，引入了一种新型的可分离自注意力机制（separable self-attention），以解决传统多头自注意力（MHA）在处理高维数据时带来的计算复杂性和延迟问题。到此本文的正式分享内容就结束了，在这里给大家推荐我的YOLOv10改进有效涨点专栏，后期我会根据各种最新的前沿顶会进行论文复现，也会对一些老的改进机制进行补充，如果大家觉得本文帮助到你了，订阅本专栏，关注后续更多的更新~
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。