1. EfficientViT介绍
1.1 摘要: 高分辨率密集预测使得许多有吸引力的现实应用成为可能,例如计算摄影、自动驾驶等。然而,巨大的计算成本使得在硬件设备上部署最先进的高分辨率密集预测模型变得困难。 这项工作提出了 EfficientViT,这是一个新的高分辨率视觉模型系列,具有新颖的多尺度线性注意力。 与之前的高分辨率密集预测模型依赖于大量的softmax注意力、硬件效率低下的大内核卷积或复杂的拓扑结构来获得良好的性能不同,我们的多尺度线性注意力实现了全局感受野和多尺度学习(两个 高分辨率密集预测的理想功能)仅具有轻量级和硬件高效的操作。 因此,与之前最先进的模型相比,EfficientViT 提供了显着的性能提升,并在各种硬件平台(包括移动 CPU、边缘 GPU 和云 GPU)上显着加速。 在 Cityscapes 上没有性能损失的情况下,我们的 EfficientViT 比 SegFormer 和 SegNeXt 分别减少了 13.9 倍和 6.2 倍的 GPU 延迟。 对于超分辨率,EfficientViT 比 Restormer 提供高达 6.4 倍的加速,同时提供 0.11dB 的 PSNR 增益。 对于 Segment Anything,Effic