CVPR/ICML 2023 ViT最新论文解析（附下载）

最新推荐文章于 2024-08-13 18:15:42 发布

深度之眼

最新推荐文章于 2024-08-13 18:15:42 发布

阅读量3.6k

点赞数 2

分类专栏：人工智能干货深度学习干货文章标签：深度学习计算机视觉 vit transformer

本文链接：https://blog.csdn.net/weixin_42645636/article/details/131091516

版权

深度学习干货同时被 2 个专栏收录

669 篇文章

订阅专栏

人工智能干货

642 篇文章

订阅专栏

文章介绍了近期关于视觉Transformer的几篇重要论文，涉及粗细粒度推理、大规模参数训练、后训练量化、自上而下注意力、无TokenMixer架构、无监督预训练及内存效率提升等主题。这些研究旨在改善ViT的性能、降低计算成本并增强其在资源受限环境中的实用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

相较于CNN（卷积神经网络），视觉transformer（ViT）具有更出色的建模能力，在imagenet等基准上也取得的了更优秀的性能，这可能也是为什么近年来ViT越发热门的原因。

而且最近ViT的新进展真的不少，我这段时间逛论文的时候也研读了一些，今天就简单总结了几篇个人认为很不错的文章，和大家分享分享。

1.CF-ViT: A General Coarse-to-Fine Method for Vision Transformer

论文标题：CF-ViT：一种通用的粗细粒度视觉Transformer方法

发表于AAAI-2023

论文链接：https://arxiv.org/abs/2203.03821

视觉Transformer(ViT)在计算机视觉任务中取得了许多突破，但是输入图像的空间维度存在大量冗余，导致巨大的计算成本。因此，本文提出了一种粗细粒度视觉Transformer(CF-ViT)来减轻计算负担而保持性能。

CF-ViT以两阶段方式实现网络推理。在粗略推理阶段，输入图像被分割为短令牌序列进行计算经济的分类。如果不能很好识别，则识别信息丰富的patch，并进一步细分为细粒度。

通过粗细粒度的patch分割和多阶段推理，CF-ViT实现了视觉Transformer的轻量化，在不影响Top-1 准确率的情况下，CF-ViT在ImageNet上将LV-ViT-S的FLOPs降低53%， GPU上实测推理速度也加快了2倍，这为其在更大规模数据集和模型上应用提供了可能。

2.Scaling Vision Transformers to 22 Billion Parameters

论文标题：将视觉Transformer扩展到220亿参数

论文链接：https://arxiv.org/abs/2302.05442

作者提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法，异步并行线性操作，成功将ViT的参数量提升到220亿。

在下游任务（通常使用冻结特征上的轻量化线性模型）上评估，本文提出的ViT-22B与规模呈递增性能，证明大规模视觉Transformer的效果和潜力。

3.FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

论文标题：FQ-ViT：全量化视觉Transformer的后训练量化方法

论文链接：https://arxiv.org/pdf/2111.13824

作者提出了Power-of-Two Factor（PTF），一种简单而有效的后训练方法，可以在只有一个分层量化尺度的情况下对LayerNorm输入实现精确量化，减少全量化视觉Transformer的性能下降和推理复杂性。

另外，作者也提出了Log-Int-Softmax(LIS)来维持注意力图中的极端非均匀分布，并通过使用4位量化和BitShift运算符简化推理。

两种方法在保持高精度的同时大幅降低计算复杂度，成功实现视觉Transformer的全量化，为其在资源受限环境下的实际应用提供了可能。

4.Top-Down Visual Attention from Analysis by Synthesis

论文标题：从分析合成的角度看自上而下的视觉注意力

发表于CVPR 2023

论文链接：https://arxiv.org/pdf/2303.13043

本文为CVPR 2023 高分论文

作者提出了一个拥有top-down attention能力的AbSViT，这是一种通过自上而下的调制调整ViT模型的变分近似AbS，可以实现可控的自上而下注意力，可以用作一般的骨干，改进分类、语义分割和模型鲁棒性的性能。

AbSViT也可以作为一个general backbone，用来提升image classification，semantic segmentation，以及model robustness的性能。不仅在视觉语言理解等任务中表现出色，也是一般的强大工具。

5.RIFormer: Keep Your Vision Backbone Effective But Removing Token Mixer

论文标题：RIFormer:保留视觉骨干网络的效果但去除令牌混合器

发表于CVPR 2023

论文链接：https://arxiv.org/pdf/2304.05659

作者基于重参数机制提出了RepIdentityFormer方案以研究无Token Mixer的架构体系。然后作者探索改进的学习范式来突破简单令牌混合器免费骨干的限制，并总结了5个经验实践指南。广泛的实验和相关分析也证明，网络体系结构的归纳偏见可以通过适当的优化策略融入简单的网络结构。

该工作可以作为网络设计优化驱动型高效率的探索起点，为后续优化驱动的高效网络设计提供了新的思路。

6.A Closer Look at Self-Supervised Lightweight Vision Transformers

论文标题：深入探索无监督的轻量级视觉Transformer

发表于ICML 2023

论文链接：https://arxiv.org/pdf/2205.14443

作者开发和基准测试了几种无监督预训练方法，用于图像分类任务和一些下游的密集预测任务，发现对于轻量级 ViT来说，当下游任务的数据比较充足时，基于 Masked-Image-Modeling（MIM）的自监督预训练方法表现最好，当下游任务的数据规模比较小时，基于 MAE 的预训练轻量级 ViT的迁移效果就很差。

最后，作者基于上述分析，开发了预训练期间的蒸馏策略，进一步提高了基于MAE的预训练的下游性能。