1. MobileViTv2介绍
1.1 摘要:移动视觉转换器 (MobileViT) 可以在多个移动视觉任务(包括分类和检测)中实现最先进的性能。 尽管这些模型的参数较少,但与基于卷积神经网络的模型相比,它们具有较高的延迟。 MobileViT 的主要效率瓶颈是 Transformer 中的多头自注意力 (MHA),这需要相对于令牌(或补丁)k 数量的 O(k2) 时间复杂度。 此外,MHA 需要昂贵的操作(例如,批量矩阵乘法)来计算自注意力,从而影响资源受限设备上的延迟。 本文介绍了一种具有线性复杂度的可分离自注意力方法,即 O(k)。 该方法的一个简单而有效的特点是它使用逐元素操作来计算自注意力,使其成为资源受限设备的良好选择。 改进后的模型 MobileViTv2 在多个移动视觉任务上都是最先进的,包括 ImageNet 对象分类和 MS-COCO 对象检测。 MobileViTv2 拥有约 300 万个参数,在 ImageNet 数据集上实现了 75.6% 的 top-1 准确率,比 MobileViT 高出约 1%,同时在移动设备上的运行速度提高了 3.2 倍。
官方论文地址:https://arxiv.org/pdf/2206.02680
官方代码地址: