YOLOv10改进 | 主干篇 | YOLOv10引入MobileViTv1替换Backbone

1. MobileViTv1介绍

1.1  摘要:轻量级卷积神经网络 (CNN) 是移动视觉任务的实际应用。 他们的空间归纳偏差使他们能够在不同的视觉任务中学习用更少的参数表示。 然而,这些网络在空间上是局部的。 为了学习全局表示,采用了基于自注意力的视觉变换器(ViT)。 与 CNN 不同,ViT 是重量级的。 在本文中,我们提出以下问题:是否有可能结合 CNN 和 ViT 的优势,为移动视觉任务构建轻量级、低延迟的网络? 为此,我们推出了 MobileViT,这是一种适用于移动设备的轻量级通用视觉转换器。 MobileViT 为使用 Transformer 进行全局信息处理提供了不同的视角。 我们的结果表明,MobileViT 在不同的任务和数据集上显着优于 CNN 和基于 ViT 的网络。 在 ImageNet-1k 数据集上,MobileViT 使用约 600 万个参数实现了 78.4% 的 top-1 准确率,对于相似数量的参数,比 MobileNetv3(基于 CNN)和 DeIT(基于 ViT)准确率高 3.2% 和 6.2% 参数。 在 MS-COCO 目标检测任务上,对于相似数量的参数&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值