如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?MBZUAI和Meta的研究者给出了答案。后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
这里对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析,每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求,但本文发现它们在许多其他的方面有所不同。
一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。
因为计算机视觉模型已变得越来越复杂,从早期的 ConvNets 到 Vision Transformers,可用模型的种类已大幅增加。同样,训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。
ImageNet 并不能捕捉到不同架构、训练范式和数据所产生的细微差别。如果仅根据 ImageNet 准确率来判断,具有不同属性的模型可能看起来很相似。当模型开始过度拟合 ImageNet 的特异性并使准确率达到饱和时,这种局限性就会变得更加明显。
CLIP 就是个值得一提的例子:尽管 CLIP 的 ImageNet 准确率与 ResNet 相似,但其视觉编码器的稳健性和可迁移性要好得多。这引发了对 CLIP 独特优势的探索和研究,如果当时仅从 ImageNet 指标来看,这些优势并不明显。这表明,分析其他属性有助于发现有用的模型。
此外,传统的基准并不能完全反映模型处理真实世界视觉挑战的能力,例如不同的相机姿势、光照条件或遮挡物。例如,在 ImageNet 等数据集上训练的模型往往很难将其性能应用到现实世界的应用中,因为现实世界的条件和场景更加多样化。
这些问题,为领域内的从业者带来了新的困惑:如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?
在最近的一篇论文中,MBZUAI 和 Meta 的研究者对这一问题开展了深入讨论。
-
论文标题:ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy
-
论文链接:https://arxiv.org/pdf/2311.09215.pdf
论文聚焦 ImageNet 准确性之外的模型行为,分析了计算机视觉领域的四个主要模型:分别在监督和 CLIP 训练范式下的 ConvNeXt(作为 ConvNet 的代表)和 Vision Transformer (ViT) 。
所选模型的参数数量相似,且在每种训练范式下对 ImageNet-1K 的准确率几乎相同,确保了比较的公平性。研究者深入探讨了一系列模型特性