1. Cascaded Group Attention介绍
1.1 摘要:视觉变压器因其高模型能力而取得了巨大成功。 然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。 在本文中,我们提出了一系列名为 EfficientViT 的高速视觉转换器。 我们发现现有 Transformer 模型的速度通常受到内存低效操作的限制,尤其是 MHSA 中的张量整形和逐元素函数。 因此,我们设计了一种具有三明治布局的新构建块,即在高效 FFN 层之间使用单个内存绑定的 MHSA,从而提高内存效率,同时增强通道通信。 此外,我们发现注意力图在头部之间具有高度相似性,导致计算冗余。 为了解决这个问题,我们提出了一个级联的组注意力模块,为注意力头提供完整特征的不同分割,这不仅节省了计算成本,而且提高了注意力多样性。 综合实验表明 EfficientViT 优于现有的高效模型,在速度和准确性之间取得了良好的平衡。 例如,我们的 EfficientViT-M5 的准确度比 MobileNetV3-Large 提高了 1.9%,同时在 Nvidia V100 GPU 和 Intel Xeon CPU 上的吞吐量分别提高了 40.4% 和 45.2%。 与最新的高效模