论文全名:Proactive Pseudo-Intervention: Contrastive Learning For Interpretable Vision Models
基本信息:2021年发表在CVPR,作者Dong Wang, Yuewei Yang, Chenyang Tao
摘要重点及文章贡献
提出了一种新的对比学习策略,称为主动伪干预(Proactive Pseudo-Intervention,PPI),它利用主动干预来防止没有因果相关性的图像特征的提取。还设计了一个新的显著性因果通知映射模块来识别关键的图像像素从而进行干预,并表明它极大地提高了模型的可解释性。
一种端到端对比表征学习策略PPI,采用主动干预来识别因果相关特征
一个快速且与架构无关的显著性映射模块权重反向传播 (Weight Back Propagation,WBP),它提供了更好的可视化和定位性能。
实验表明,相对于相互竞争的解决方案,集成PPI和WBP可以显著提高性能,特别是在 out-of-domain预测、异构源的数据集成和模型解释方面。
问题背景
当前深度学习模型大多是基于统计模型的数据驱动方式来学习,这种黑盒子的方式虽然可以直接通过数据来学习其隐含的相关性,但是也存在着许多的问题,例如:模型的可解释性差,过拟合现象。为了避免这两个问题,作者提出用因果的角度来对模型进行训练,通过使得模型更多的去关注图像中与label有关的因果特征从而提升模型对背景信息等非因果信息的鲁棒性,同时可以通过事后可视化的方式标记出saliency mapping,从而使得我们对模型有更好的解释性(e.g. 如果saliency mapping更多的集中于目标物体,那么会大大提升我们对模型的信任程度)
图一
图一显示了使用分层相关性传播(layer-wise relevance propagation,LRP)方法生成的显著性图和我们的模型PPI生成的显著性图。LRP表明,以往的深度模型基于与鸟类虚假相关的背景线索(栖息地,如岩石、芦苇)做出决策,而这篇文章的因果模型PPI主要关注鸟类的解剖结构,有更好的鲁棒性。
视觉解释(Visual Explanations):显著性映射(Saliency mapping)是指帮组人类理解和解释黑盒图像分类模型的一系列技术,这些方法将模型对label的理解及其预测投射回输入空间,从而允许对模型地学预测过程进行可视化检查,旨在摆脱模型 insights或建立深度学习的信任。
对比学习(Contrastive Learning, CL):CL主要的思路是,给定一个样本,对其进行数据增强,将增强的结果视为正例;然后,其他所有的样本视为负例。通过拉近正样本、拉远负样本之间的距离,对比学习能够在无监督(自监督)情境下学习更稳定的样本表征,并方便于下游任务的迁移。
因果关系和干预措施:从因果关系的角度来看,人类通过与环境的积极互动来学习。我们干预并观察结果的变化,以推断因果依赖关系。相反,机器从静态观察中学习,这些静态观察不能告知因果决策的依赖特征。因此,对外部因素的扰动,如环境、光线、视角,可能会极大地改变机器的预测,而人类的识别不太容易受到这种变化的影响。
具体实现过程
PPI的构建:因果对比学习方案
图二
从图2可以看出,PPI由三个主要部分组成: (i)突出因果相关特征的显著性映射模块;(ii)综合对比样本的干预模块;(iii)预测模块:如VGG ,ResNet 等。总的来说,就是利用对比学习去生成伪干预。
PPI的关键在于设计一个综合干预策略,生成可进行对比学习的样本,以加强模型训练中的因果相关性。具体过程如下:假设给定输入X,label为y = m(m = 1, . . . , M, M为类别数,模型先通过WBP得到图像的显著因果特征区域,之后模型会通过将求得的特征区域进行区域框定,生成一个mask图,理想化的话,mask可以屏蔽掉图像的因果信息,之后将mask后的图像输入到分类模型中,企图让分类模型去分类这个mask后的图像。具体的公式如下:
sm (x)为得到的显著因果特征区域,T(sm (x))表示得到图像的mask,ω和σ是两个阈值超参数,使mask后的值在0到1之间。表达式(3)为对比损失的定义,fθ是预测模块,¬用于表示原始的类标签已经被翻转。在二进制情况下,¬y=1−y。在实际运用中,我们设置了 l(x,y;fθ)=−l(x,y;fθ)
显著性映射正则化(Saliency map regularization)
任何满足因果充分性的显著性映射(即包含所有的因果特征)都是一个有效的因果显著性映射。例如,一个显著性映射覆盖整个图像的平凡解决方案可以被认为是因果关系的。为了防止这种简并性,我们建议将的l1范数正则化运用到显著性映射中,即:
对抗性正面对比(Adversarial positive contrasts)
单独优化表达(3)的另一个问题是,模型很容易过度拟合干预,也就是说,模型不是学习捕获因果相关性,而是学习预测干预操作。例如,当模型检测到输入已经被干预时,该模型可以学习改变其预测,而不管图像是否缺少因果特征。因此,作者引入了对抗性的积极对比:
用一个假的显著性映射进行干预,即sm(xj)是来自不同输入xj的显著性映射,同时鼓励模型做出正确的预测
显著权重反向传播(Saliency Weight Backpropagation)
通俗来说,WBP是通过计算每个像素点对最后分类结果的影响来生成saliency map的。具体计算过程如下:
可以认为,传统反向传播是指将loss通过反向算法传回到网络中,调整权重并计算梯度,WBP是通过计算每个像素点对最后分类结果的影响来得到saliency map的,WBP过程不在存在梯度更新过程,也没有参数,梯度的更新由预测模块决定。