MobileViT: Lightweight general purpose and mobile friendly vision transformer (移动端-ViT:一种轻量级的通用移动端V

本文提出了一种新的轻量级、通用的移动端视觉Transformer模型——MobileViT,它结合了CNN的空间归纳偏置和Transformer的全局信息处理能力。MobileViT在保持较低延迟和参数量的同时,能有效学习视觉任务的表示,相比于其他轻量级CNN模型,如MobileNet,MobileViT在ImageNet-1K上的表现更优。
摘要由CSDN通过智能技术生成

1. 摘要

轻量级卷积网络在移动端计算中得到了广泛的应用。他们的spatial inductive biases allow them to learn representations with fewer parameters across different vision tasks. 空间归纳偏差让模型能够在不同的视觉任务中以较少的参数下学习到表征。然而,这些表征往往在空间上具有较强局限性。为了学习到全局的表征,视觉transformer结构中的自注意力模块被采纳。 How to cambine the sttrength of CNN and Transformer 结构,以构建一个低延迟、轻量级的网络实现对视觉任务的有效检测?基于此,文章提出了一种Mobile Vit模型。 In this paper, we ask the following question: is it possible to combine the strengths of CNNs and ViTs to build a light-weight and low latency network for mobile vision tasks? Towards this end, we introduce MobileViT, a light-weight and general-purpose vision transformer for mobile devices.

2. 需求

Self-attention-based models, especially vision transfor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Robo-网络矿产提炼工

你的鼓励将是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值