ICLR2023: What do vision transformers learn? A visual exploration

vision transformer 的可解释性
代码:https://github.com/anonymous2023iclr/ViTVis
论文:https://openreview.net/pdf?id=xc5ajsvLzFO

摘要

视觉转换器 (ViT) 正迅速成为计算机视觉事实上的架构,但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制,但对ViT的类似探索仍然具有挑战性。在本文中,我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下,我们观察到使用语言模型监督(例如,CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异,我们发现transformer检测图像背景特征,就像它们的卷积对应物一样,但它们的预测对高频信息的依赖要小得多。另一方面,这两种架构类型的特征在从早期层的抽象模式发展到后期层的具体对象方面表现相似。此外,我们还表明,ViT在除最后一层之外的所有层中都保留了空间信息。与之前的工作相比,我们发现最后一层最有可能丢弃空间信息,并表现为学习的全局池化操作。最后,我们对各种ViT变体进行了大规模可视化,包括DeiT、CoaT、ConViT、PiT、Swin和Twin,以验证我们方法的有效性。

introduction

近年来,视觉转换器 (ViT) 在从图像分类到语义分割再到对象检测的各种任务中迅速普及(Dosovitskiy 等人,2020 年;He 等人,2021 年;Dong 等人,2021 年;Liu 等人,2021 年;Zhai et al., 2021;Dai 等人,2021 年)。尽管它们被热情地采用并不断引入架构创新,但人们对它们倾向于学习的归纳偏见或功能知之甚少。虽然特征可视化和图像重建为CNN的工作提供了一面镜子(Olah等人,2017;Zeiler&Fergus,2014年;Dosovitskiy和Brox,2016),这些方法在理解ViT表示方面不太成功,这很难可视化。在这项工作中,我们表明,如果正确地应用于正确的表示,特征可视化确实可以在 VIT 上取得成功。这种洞察力使我们能够直观地探索ViT及其从图像中收集的信息。
在这里插入图片描述
在探究了空间信息的作用之后,我们深入研究了ViT和CNN之间的行为差异。在执行激活最大化的可视化时,我们注意到 ViT 始终生成比 CNN 更高质量的图像背景。因此,我们尝试在推理过程中屏蔽图像前景,并发现当仅暴露于图像背景时,ViT的性能始终优于CNN。这些发现支持了这样的观察结果,即转换器模型从图像中的许多来源中提取信息,以在分布外泛化(Paul & Chen,2021)以及对抗性鲁棒性(Shao et al., 2021)方面表现出卓越的性能。此外,众所周知,卷积神经网络严重依赖图像中的高频纹理信息(Geirhos 等人,2018 年)。相比之下,我们发现,即使从输入中去除高频内容,ViT也表现良好。
我们进一步可视化了语言模型监督,即 CLIP(Radford 等人,2021 年)对视觉转换器提取的特征的影响。虽然 ImageNet 训练的 ViT 和 CLIP 训练的视觉转换器都具有由视觉特征(例如形状和颜色)和不同类别激活的神经元,但 CLIP 训练的视觉转换器的神经元也被不代表物理对象的特征激活,例如与词性相关的视觉特征(例如绰号、形容词和介词)或更广泛的概念(如发病率)。

贡献如下:
I. 我们观察到,当将标准的特征可视化方法应用于基于 Transformer 的模型的相对低维组件(例如键、查询或值)时,会出现不可解释和对抗的行为。但是,将这些工具应用于位置前馈层的相对高维特征可以成功且信息丰富的可视化。我们对各种基于Transformer的视觉模型进行了大规模可视化,包括ViTs、DeiT、CoaT、ConViT、PiT、Swin和Twin,以验证我们方法的有效性。
II. 我们发现,ViT 特征的补丁图像激活模式本质上表现得像显著性图,突出显示给定特征所关注的图像区域。即使对于相对较深的层,这种行为也会持续存在,这表明模型保留了面片之间的位置关系,而不是将它们用作全局信息存储。
III. 我们比较了 ViT 和 CNN 的行为,发现 ViT 更好地利用了背景信息,并且较少依赖高频、纹理属性。这两种类型的网络都在更深的层中逐渐构建更复杂的表示,并最终包含负责检测不同对象的特征。
IV、研究了CLIP自然语言监督对ViT提取的特征类型的影响。我们发现 CLIP 训练的模型包括各种功能,这些特征显然可以检测与标题文本相对应的图像组件,例如介词、形容词和概念类别。

Vit feature visualization

像许多可视化技术一样,我们采取梯度步骤,从随机噪声开始最大化特征激活(Olah等人,2017)。为了提高图像质量,我们惩罚了总变化(Mahendran & Vedaldi,2015),并采用了抖动增强(Yin et al., 2020)、ColorShift 增强和增强集成(Ghiasi et al., 2021)。最后,我们发现高斯平滑有助于在我们的实验中更好地可视化,这在特征可视化中很常见(Smilkov 等人,2017 年;Cohen 等人,2019 年)。上述每种技术都可以形式化如下。ViT 通过具有 d 个条目的数组 A l , p A_{l,p} Al,p 表示第 l 层(输入 x)的每个补丁 p。我们将特征向量 f 定义为由每个数组中的一个条目组成的堆栈。设 f l , i f_{l,i} fl,i 是通过连接所有补丁 p 的 A l , p A_{l,p} Al,p中的第 i 个条目而形成。此向量 f 的维度等于面片数。优化目标首先使 f 的条目之和与输入 x 的总和最大化。主要损失是
在这里插入图片描述
我们采用全变分正则化,在物镜中添加项 λ T V ( x ) λTV(x) λTV(x T V TV TV 表示总变异, λ λ λ是控制其正则化效应强度的超参数。我们可以对输入进行集成增强,以进一步改善结果。设 A 定义要应用于输入图像 x 的增强分布,并设 A 是 A 的样本。为了从单个图像创建小批量输入,我们从 A 中采样了几个增强 a k {a_k} ak。最后,优化问题是:
在这里插入图片描述
在这里插入图片描述

Experiments

ViT with language model superivision

CLIP 模型的训练目标包括将选项列表中的正确标题与输入图像(在特征空间中)进行匹配。直观地说,这个过程需要网络提取的特征不仅适合检测名词(例如,像“鸟”这样的简单类标签),而且还需要修饰介词和绰号等短语。事实上,我们观察到一些这样的特征,这些特征在仅作为图像分类器训练的 ViT 中不存在。
ViT提取的特征无法识别介词等短语。

使用 CLIP 训练的 ViT 特征与 病态和音乐类别相关。每个类别中的左上角图像:图像经过优化,可最大限度地激活第 10 层中的功能。
其余:最能激活该功能的 10 个 ImageNet 图像中的 7 个。
例如,图 10(a) 的左上角面板显示了一个由墓碑旁边的类似头骨的东西激活的功能。数据集中相应的七张高度激活的图像包括其他不同的对象,例如血腥武器、僵尸和骷髅。从严格的视觉角度来看,这些类具有非常不同的属性,表明此功能可能负责检测与 病态 广泛相关的图像成分。在图 10(b) 中,我们看到最左上角的面板显示了一个迪斯科球,数据集中的相应图像包含音箱、扬声器、电唱机、录音设备和表演者。同样,这些在视觉上是截然不同的类别,但它们都由音乐的概念统一起来。鉴于图像的可能标题空间比 ImageNet 数据集中的 1000 个类大得多,因此可以理解的是,高性能 CLIP 模型需要对它们识别的对象进行更高级别的组织。此外,CLIP 数据集是从互联网上抓取的,其中的标题通常比简单的类标签更具描述性。
根据图10,可以发现特征图包含语义信息,能够识别所描述场景的图像
在这里插入图片描述

Discussion

为了剖析视觉转换器的内部工作原理,我们引入了一个基于优化的特征可视化框架。然后,我们确定了ViT的哪些组件最适合产生可解释的图像,发现前馈层的高维内部投影是合适的,而自我注意力的键、查询和值特征则不适合。将该框架应用于上述特征,我们观察到ViT保留了补丁的空间信息,即使对于除最后一层之外的所有层的单个通道,表明网络从头开始学习空间关系。我们进一步表明,最后一个注意力层中定位信息的突然消失是由类似于平均池化的学习标记混合行为引起的。在比较 CNN 和 ViT 时,我们发现** ViT 更好地利用了背景信息,并且当仅暴露于图像背景时,ViT 能够做出相对于 CNN 的更优越的预测,尽管 ViT 对高频信息的丢失不如 CNN 敏感**,这似乎是违反直觉的,人们可能认为这对于有效利用背景至关重要。我们还得出结论,这两种架构具有一个共同的属性,即早期的层学习纹理属性,而更深的层学习高级对象特征或抽象概念。最后,我们展示了在语言模型监督下训练的ViT学习了更多的语义和概念特征,而不是典型的分类器特定于对象的视觉特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值