因果论文：Proactive Pseudo-Intervention

oblivion_Dou

已于 2023-02-03 21:38:19 修改

阅读量387

点赞数

分类专栏：因果分析与深度学习文章标签：人工智能深度学习计算机视觉图像处理 Powered by 金山文档

于 2023-02-03 21:27:24 首次发布

本文链接：https://blog.csdn.net/mistydou/article/details/128869474

版权

因果分析与深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章提出ProactivePseudo-Intervention(PPI)策略，结合对比学习来防止非因果特征的提取，通过显著性因果通知映射模块增强模型的可解释性。此外，PPI还包括一个快速的显著性权重反向传播模块，提高模型的定位和可视化能力。实验显示，PPI与WBP的结合在多个方面提高了模型性能，尤其是在领域外预测和模型解释方面。

摘要由CSDN通过智能技术生成

论文全名：Proactive Pseudo-Intervention: Contrastive Learning For Interpretable Vision Models

基本信息：2021年发表在CVPR，作者Dong Wang, Yuewei Yang, Chenyang Tao

摘要重点及文章贡献

提出了一种新的对比学习策略，称为主动伪干预（Proactive Pseudo-Intervention，PPI），它利用主动干预来防止没有因果相关性的图像特征的提取。还设计了一个新的显著性因果通知映射模块来识别关键的图像像素从而进行干预，并表明它极大地提高了模型的可解释性。

一种端到端对比表征学习策略PPI，采用主动干预来识别因果相关特征

一个快速且与架构无关的显著性映射模块权重反向传播 (Weight Back Propagation,WBP)，它提供了更好的可视化和定位性能。

实验表明，相对于相互竞争的解决方案，集成PPI和WBP可以显著提高性能，特别是在 out-of-domain预测、异构源的数据集成和模型解释方面。

问题背景

当前深度学习模型大多是基于统计模型的数据驱动方式来学习，这种黑盒子的方式虽然可以直接通过数据来学习其隐含的相关性，但是也存在着许多的问题，例如：模型的可解释性差，过拟合现象。为了避免这两个问题，作者提出用因果的角度来对模型进行训练，通过使得模型更多的去关注图像中与label有关的因果特征从而提升模型对背景信息等非因果信息的鲁棒性，同时可以通过事后可视化的方式标记出saliency mapping，从而使得我们对模型有更好的解释性(e.g. 如果saliency mapping更多的集中于目标物体，那么会大大提升我们对模型的信任程度)

图一

图一显示了使用分层相关性传播(layer-wise relevance propagation，LRP)方法生成的显著性图和我们的模型PPI生成的显著性图。LRP表明，以往的深度模型基于与鸟类虚假相关的背景线索（栖息地，如岩石、芦苇）做出决策，而这篇文章的因果模型PPI主要关注鸟类的解剖结构，有更好的鲁棒性。

视觉解释（Visual Explanations）：显著性映射（Saliency mapping）是指帮组人类理解和解释黑盒图像分类模型的一系列技术，这些方法将模型对label的理解及其预测投射回输入空间，从而允许对模型地学预测过程进行可视化检查，旨在摆脱模型 insights或建立深度学习的信任。

对比学习（Contrastive Learning, CL）：CL主要的思路是，给定一个样本，对其进行数据增强，将增强的结果视为正例；然后，其他所有的样本视为负例。通过拉近正样本、拉远负样本之间的距离，对比学习能够在无监督（自监督）情境下学习更稳定的样本表征，并方便于下游任务的迁移。

因果关系和干预措施：从因果关系的角度来看，人类通过与环境的积极互动来学习。我们干预并观察结果的变化，以推断因果依赖关系。相反，机器从静态观察中学习，这些静态观察不能告知因果决策的依赖特征。因此，对外部因素的扰动，如环境、光线、视角，可能会极大地改变机器的预测，而人类的识别不太容易受到这种变化的影响。

具体实现过程

PPI的构建：因果对比学习方案

图二

从图2可以看出，PPI由三个主要部分组成： (i)突出因果相关特征的显著性映射模块；（ii）综合对比样本的干预模块；（iii）预测模块：如VGG ，ResNet 等。总的来说，就是利用对比学习去生成伪干预。

PPI的关键在于设计一个综合干预策略，生成可进行对比学习的样本，以加强模型训练中的因果相关性。具体过程如下：假设给定输入X，label为y = m（m = 1, . . . , M, M为类别数，模型先通过WBP得到图像的显著因果特征区域，之后模型会通过将求得的特征区域进行区域框定，生成一个mask图，理想化的话，mask可以屏蔽掉图像的因果信息，之后将mask后的图像输入到分类模型中，企图让分类模型去分类这个mask后的图像。具体的公式如下：

sm (x)为得到的显著因果特征区域，T(sm (x))表示得到图像的mask，ω和σ是两个阈值超参数，使mask后的值在0到1之间。表达式（3）为对比损失的定义，fθ是预测模块，¬用于表示原始的类标签已经被翻转。在二进制情况下，¬y=1−y。在实际运用中，我们设置了 l(x，y；fθ）=−l(x，y；fθ）