#今日论文推荐#港中文提出 EdgeViT | 超越MobileViT与MobileNet,实现Transformer在CPU上实时
在计算机视觉领域,基于Self-attention
的模型(如(ViTs
))已经成为CNN
之外的一种极具竞争力的架构。尽管越来越强的变种具有越来越高的识别精度,但由于Self-attention
的二次复杂度,现有的ViT
在计算和模型大小方面都有较高的要求。
虽然之前的CNN
的一些成功的设计选择(例如,卷积和分层结构)已经被引入到最近的ViT
中,但它们仍然不足以满足移动设备有限的计算资源需求。这促使人们最近尝试开发基于最先进的MobileNet-v2
的轻型MobileViT
,但MobileViT
与MobileNet-v2
仍然存在性能差距。
在这项工作中,作者进一步推进这一研究方向,引入了EdgeViTs
,一个新的轻量级ViTs
家族,也是首次使基于Self-attention
的视觉模型在准确性和设备效率之间的权衡中达到最佳轻量级CNN
的性能。
这是通过引入一个基于Self-attention
和卷积的最优集成的高成本的local-global-local(LGL
)信息交换瓶颈来实现的。对于移动设备专用的评估,不依赖于不准确的proxies
,如FLOPs
的数量或参数
,而是采用了一种直接关注设备延迟和能源效率的实用方法。
论文题目:EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers
详细解读:https://www.aminer.cn/research_report/627c8eca7cb68b460fb61056?download=falsehttps://www.aminer.cn/research_report/627c8eca7cb68b460fb61056?download=false
AMiner链接:https://www.aminer.cn/?f=cs