CVPR 2022 | Vision Transformer模型在out-of-distribution数据上的泛化性能研究

最新推荐文章于 2024-01-24 22:32:04 发布

TechBeat人工智能社区

最新推荐文章于 2024-01-24 22:32:04 发布

阅读量1.2k

点赞数

文章标签： transformer 深度学习计算机视觉

原文链接：https://www.techbeat.net/article-info?id=3568

版权

导读

在CVPR 2022上，北京航空航天大学、南洋理工大学S-Lab、北京大学和清华大学的研究者针对最近在计算机视觉领域崭露头角的Vision Transformer（ViT）模型在out-of-distribution（OOD）数据上的泛化能力进行了全面研究。同时，本文还关注泛化能力提升方法在ViT模型上的效果，分别针对性设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT。针对上述模型，系统分析了其在OOD数据上的泛化能力变化特点。

:::

论文名称：
Delving Deep into the Generalization of Vision Transformers under Distribution Shifts
论文链接：
https://arxiv.org/abs/2106.07617
代码链接：
https://github.com/Phoenix1153/ViT_OOD_generalization

摘要

最近，ViT模型在各类计算机视觉任务中都取得了令人瞩目的成果。然而，人们对它们在面对不同distribution shift（DS）下的泛化能力研究较少。因此，本文提供了关于ViT在OOD数据上泛化能力的全面研究。为了支持系统的研究，本文首先对DS进行基于语义偏离程度的分类，将它们划分为四个概念组：background shift，corruption shift，texture shift和style shift。

进而评估和比较了ViT和卷积神经网络（CNN）模型在不同DS下的泛化性能，并从而得出各模型的归纳偏置（Inductive Bias）上的特点。由此本文得到以下重要观察结果：

ViT学习到更弱的对于背景和纹理视觉线索的归纳偏置，而装备了更强的对物体形状和结构信息的归纳偏置。这表明ViT相较于CNN，和人类认知特点更为一致。因此，在大多数DS下，ViT的泛化能力优于CNN，即在相同或更少的参数量下，ViT的top-1正确率比对应的CNN领先5%至10%。
随着ViT模型尺寸逐渐变大，其逐渐加强了上述归纳偏置特点，同时会逐渐缩小其面对正常分布（in-distribution）数据和OOD数据的泛化性能差距。

然后，为了进一步提高ViT的泛化能力，我们分别设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT。通过研究这三种类型的泛化增强ViT，我们观察到了ViT模型针对梯度的敏感性，并设计了一个更平滑的学习策略，以实现稳定的训练过程。通过修改的训练方案，我们实现了相较于原始ViT在OOD数据下的泛化性能4%左右的提升。通过将这三种泛化增强的ViT与它们对应的CNN模型进行综合比较，得到以下结论：

对于泛化增强的ViT，模型结构越庞大，其对于OOD数据的泛化能力得到的增益更多。
与相应的CNN模型相比，泛化增强的ViT对超参数更敏感。希望我们的综合研究能够为设计更一般化的学习架构提供启发。

探究方法

基于原始图像被修改语义概念的DS分类

为了对OOD数据上的泛化能力进行广泛的研究，本文基于原始图像被修改的语义概念，对DS进行了分类。在图像分类任务中，图像通常由前景的物体和背景组成。以往的工作通常假设在图像中出现的语义概念具有层次结构 [1] 。这些语义概念可以从低级到高级可列举为：像素级元素、物体纹理、形状以及物体结构。因此，本文将DS分为4种情况：background shift，corruption shift，texture shift和style shift，如表1所示。精心划分的DS使得本文可以分别探究模型对每一级别的语义视觉线索的归纳偏置。

::: hljs-center

图1.png

表1 DS分类方法展示 √表示该语义视觉线索在特定DS下未修改。

:::

Background Shift 在图像分类任务中，图像背景通常被视为标签分配过程中的辅助线索。然而，以往的工作已经证明，背景可能在模型结果预测中占主导地位，而这是我们希望避免发生的。因此本文关注模型对背景变化的不变性，从而定义background shift。background shift探究中使用了ImageNet-9 [2] 数据集。
Corruption Shift corruption的概念是在 [3] 中提出的，它代表那些在图像中自然出现的局部杂质。这些corruption要么来自拍摄阶段的环境影响，要么来自图像处理阶段。本文将这些情况定义为corruption shift，即使它只影响到物体像素级的元素，却仍然会导致模型的性能明显下降。ImageNet-C [3] 被用于检验corruption shift下的泛化能力。
Texture Shift 一般来说，图像的纹理给了本文颜色或密度的空间排列信息，这对于模型获得正确的预测是至关重要的。因此，对物体纹理的替换会影响模型的预测。本文将这些变化定义为texture shift。本文使用Cue Conflict Stimuli和Stylized-ImageNet [4] 来研究texture shift下的泛化能力。
Style Shift 通常情况下，风格是一个复杂的概念，由描述艺术品的特征所决定，如形式、颜色、构成等。风格的变化往往体现在多个概念层次上，包括纹理、形状、对象部分等。例如，对比一个简笔画和相应的照片，本文可以观察到纹理和颜色的差异，以及一些不重要的物体部分在简笔画被忽略的情况。ImageNet-R [5] 和 DomainNet [6] 用于style shift的探究。

OOD泛化性能评测指标

假设图像分类模型包含特征提取器 $F$ 和分类器 $C$ ，训练集为 $\mathcal{D}_{train}={(x_i,y_i)}_{i=1}^{N_{train}}$ 。分别引入独立同分布的测试集 $\mathcal{D}_{iid}={(x_i,y_i)}_{i=1}^{N_{iid}}$ 和OOD数据集 $\mathcal{D}_{ood}={(x_i,y_i)}_{i=1}^{N_{ood}}$ 。则本文采用的评测指标包含：

OOD Accuracy. 即模型在 OOD 数据集上的正确率：

$Acc(F,C;\mathcal{D}_{ood})=\frac{1}{|\mathcal{D}_{ood}|}\sum_{(x,y)\in\mathcal{D}_{ood}}\mathbf{1}(C(F(x))=y).$

IID/OOD Generalization Gap. 本文同样关注模型在OOD数据上相对于独立同分布数据的表现差距，因此本文使用了IID/OOD generalization gap作为评测指标：

$Gap\left(F,C;\mathcal{D}_{iid},\mathcal{D}_{ood}\right)=Acc\left(F,C;\mathcal{D}_{iid}\right)-Acc\left(F,C;\mathcal{D}_{ood}\right).$

结果分析

Background Shift结果分析

从图2中，可以总结出以下结论：

相对于CNN模型，ViT表现出了更少的背景信息偏好。
ViT越大，越会将更多注意力放在前景上，从而提取更加和背景无关的表征。


(a)	(b)

::: hljs-center

图2 ImageNet-9结果，(a)和(b)分别表示不同模型在ImageNet-9数据集上的OOD Accuracy以及IID/OOD Generalization Gap结果。

:::

Corruption Shift结果分析

从图3中，可以得到结论：

ViT相较于CNN应对corruption shift更好，且ViT在此情况下的泛化性能随模型尺寸提升而提高。
ViT面对添加局部噪声图像的泛化能力部分受益于多样化的数据扩充，但其架构带来的增益不能被忽略。
ViT训练过程中使用的patch尺寸并不会影响模型在IID和OOD数据上的差距，而是影响模型在IID数据上的泛化能力。


(a)	(b)

::: hljs-center

图3 ImageNet-C结果，(a)和(b)分别表示不同模型在ImageNet-C数据集上的OOD Accuracy以及IID/OOD Generalization Gap结果。

:::

Texture Shift结果分析

从图4中可以得到结论：

ViT对于形状信息更强的偏好致使其在texture shift数据下表现得更好，同时这种对于形状的偏好与模型尺寸呈现正相关关系。
使用更大patch尺寸进行训练的 ViT有更强的形状信息偏好，从而局部的纹理信息的依赖更小。


(a)	(b)

::: hljs-center

图4 Stylized-ImageNet，Cue Conflict Stimuli结果，(a)和(b)从分别表示不同模型在Stylized-ImageNet数据集上的OOD Accuracy和IID/OOD Generalization Gap结果，以及不同模型在Cue Conflict Stimuli上的表现。

:::

Style Shift结果分析

ViT在style shift下的IID/OOD generalization gap表现具有多样性（图5）。
ViT表现出了更强的对结构信息的偏好（图6）。
ViT在不同层内逐渐消除不同级别语义的DS（图7）。


(a) DeiT-B/16	(b) DeiT-S/16


(c) BiT	(d) BiTda

::: hljs-center

图5 DomainNet结果，(a)-(d)分别列举了DeiT-B/16，DeiT-S/16，BiT和BiTda 的结果。

:::


(a)	(b)

::: hljs-center

图6 结构信息偏好探究，(a)和(b)分别列举了 ViT和CNN模型在parachute类别的4个域图像的Grad-CAM注意力热图，以及在real域下训练的模型在其他域上的泛化结果。

:::

从图中观察到：ViT表现出了更强的对结构信息的偏好，持续关注物体关键结构，从而在面对低级别语义视觉信息逐渐缺失时，更少地受到影响。


(a) rel vs. pnt, L8	(b) rel vs. skt, L8	(c) rel vs. qcd, L8


(d) rel vs. pnt, L12	(e) rel vs. skt, L12	(f) rel vs. qcd, L12

::: hljs-center

图7 T-SNE可视化结果，图（a）-（c）以及（d）-（f）分别展示了real和其他域数据在第8层和第12层CLS Token的分布对比。

:::

泛化性能增强的ViT研究

模型架构

本文分别针对性设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT，分别取名为T-ADV、T-MME以及T-SSL，如图8所示。详细介绍请参考论文正文。


(a)	(b)

(c)

::: hljs-center

图8三种泛化增强的ViT框架图

:::

所有网络均包含一个ViT $F$ 作为特征提取器以及分类器 $C$ 。在该部分的设定下，模型的输入数据包含有标注的源域数据和未标注的目标域数据。

（a）：T-ADV 通过引入域判别器 $D$ 进行域对抗训练，从而促使网络学到域不变的数据表征。
（b）：T-MME 利用目标域数据的条件熵上的极大极小过程来减小分布差距，同时学习到具有判别性的特征。该模型使用了基于余弦相似度的分类器结构 $C$ ，用于生成各个prototype。
（c）：T-SSL 是一个基于原型的自监督端到端学习框架。该框架中使用了两个memory bank $V^s$ 和 $V^t$ 来计算聚类中心。该框架同样使用了基于余弦相似度的分类器结构 $C$ 。

结果分析

表格1中总结了泛化增强模型的实验结果。从结果中可以总结到：

使用泛化增强方法后，ViT面对OOD数据的表现提升了4%。
三种泛化增强方法对ViT带来的增益基本相同。
越大的ViT从泛化增强方法中获得的增益越多。

图9为对比实验，展示了不同训练策略对泛化增强的ViT的影响。绿线代表使用CNN上的传统训练策略，其他两个代表更平滑的策略。从这些策略的比较中可以看出，目前普遍使用的AutoAugment会导致T-ADV的性能下降，而对T-MME和T-SSL的影响很小。同时，平滑学习策略对于ViT收敛具有重要意义，特别是在对抗训练模式下。对于T-MME和T-SSL，loss的平滑性也显著提高了性能。基于这些观察，可以得出结论，ViT比相应的CNN模型对梯度更敏感，从而证明本文设计的改进的平滑训练策略的必要性。

::: hljs-center

表1.png

表格1 泛化增强模型在DomainNet数据集上的结果

:::

本文对比了三种提升泛化能力的ViT和对应的CNN模型。


(a)	(b)	(c)

::: hljs-center

图9 不同训练策略对泛化增强模型的影响探究，从（a）-（c）分别表示T-ADV，T-MME和T-SSL在源域和目标域的训练曲线。

:::

总结

本文中，本文提供了关于ViT在OOD数据上泛化能力的全面研究，并作出了以下贡献：

根据图像中改变的语义概念，对DS进行了分类。
我们提供了对ViT在四种类别的DS下的OOD泛化能力进行了详尽研究。
我们分别通过设计基于对抗训练，信息论以及自监督学习的泛化增强ViT来进一步提升模型泛化能力，并使用了平滑的训练策略以适应ViT。

我们的工作只是一个早期的尝试，因此对于开发更强大的泛化增强ViT还有很大的空间。

参考文献

[1] Matthew D Zeiler and Rob Fergus.Visualizing and understanding convolutional networks. In European conference oncomputer vision, pages 818–833. Springer, 2014.
[2] Kai Yuanqing Xiao, Logan Engstrom, AndrewIlyas, and Aleksander Madry. Noise or signal: The role of image backgrounds inobject recognition. In International Conference on Learning Representations,2021.

[3] Dan Hendrycks and Thomas Dietterich.Benchmarking neural network robustness to common corruptions and perturbations.In International Conference on Learning Representations, 2019.

[4] Robert Geirhos, Patricia Rubisch, ClaudioMichaelis, Matthias Bethge, Felix A. Wichmann, and Wieland Brendel. Imagenet-trainedCNNs are biased towards texture; increasing shape bias improves accuracy androbustness. In International Conference on Learning Representations, 2019.

[5] Dan Hendrycks, Steven Basart, Norman Mu,Saurav Kadavath, Frank Wang, Evan Dorundo, Rahul Desai, Tyler Zhu, SamyakParajuli, Mike Guo, Dawn Song, Jacob Steinhardt, and Justin Gilmer. The manyfaces of robustness: A critical analysis of out-of-distribution generalization.In International Conference on Computer Vision, pages 8320–8329, 2021.

[6] Xingchao Peng, Qinxun Bai, Xide Xia,Zijun Huang, Kate Saenko, and Bo Wang. Moment matching for multi-source domainadaptation. In Proceedings of the IEEE/CVF International Conference on ComputerVision, pages 1406–1415, 2019.

作者：张崇智

-The End-
关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com