YOLOv10改进 | 主干篇 | YOLOv10引入MobileViTv2替换Backbone

1. MobileViTv2介绍

1.1  摘要:移动视觉转换器 (MobileViT) 可以在多个移动视觉任务(包括分类和检测)中实现最先进的性能。 尽管这些模型的参数较少,但与基于卷积神经网络的模型相比,它们具有较高的延迟。 MobileViT 的主要效率瓶颈是 Transformer 中的多头自注意力 (MHA),这需要相对于令牌(或补丁)k 数量的 O(k2) 时间复杂度。 此外,MHA 需要昂贵的操作(例如,批量矩阵乘法)来计算自注意力,从而影响资源受限设备上的延迟。 本文介绍了一种具有线性复杂度的可分离自注意力方法,即 O(k)。 该方法的一个简单而有效的特点是它使用逐元素操作来计算自注意力,使其成为资源受限设备的良好选择。 改进后的模型 MobileViTv2 在多个移动视觉任务上都是最先进的,包括 ImageNet 对象分类和 MS-COCO 对象检测。 MobileViTv2 拥有约 300 万个参数,在 ImageNet 数据集上实现了 75.6% 的 top-1 准确率,比 MobileViT 高出约 1%,同时在移动设备上的运行速度提高了 3.2 倍。

官方论文地址:https://arxiv.org/pdf/2206.02680

官方代码地址:

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值