[Towards Interpretable Deep Learning] Concept-based Models

exploreandconquer

已于 2023-12-26 17:38:29 修改

阅读量2k

点赞数 15

分类专栏： Interpretability 文章标签：笔记人工智能深度学习论文阅读

于 2023-12-18 20:49:48 首次发布

本文链接：https://blog.csdn.net/Rad1ant_up/article/details/135057386

版权

Interpretability 专栏收录该内容

13 篇文章

订阅专栏

Concept-based models文章合集，方便自己查阅。

最后更新于2023/12/26

一、概述

近年来，深度学习技术发展迅速，在不同领域都取得了巨大的成功。但与此同时，因为深度学习模型的“黑盒属性”，我们无法明确地知道模型是如何做出决策的，即，模型是不可解释的。在这种情况下，即使模型在各种各样的数据集上预测的准确率可以达到很高，甚至媲美人类，但其不透明的决策机制导致当我们想要在现实中部署和使用深度学习模型时需要慎之又慎。尤其是在医疗、司法、金融等关乎人类生命财产安全、需要“严谨的证据”的领域，如果我们无法弄清楚决策是如何发生的，深度学习模型将完全无法使用。因此，模型的可解释性成为了在现实世界中应用深度学习时所不得不考虑的问题，可解释深度学习也逐渐进入人们的视野。

当提及到可解释性的时候，你可能会在不同的文章中看到不同的表述方式，其中出现频率最高的单词大概有两个，分别是“explanability”以及“interpretability”；这两个单词都可以翻译为“可解释性”，但是二者的具体含义却有着微妙的差异：

“explanability”指的是一个模型或系统能够以简单和清晰的方式向用户或利益相关者解释其预测、决策或输出的能力。它侧重于提供易于理解和直观的解释，使人能够理解为何模型做出特定的预测或决策。这种解释通常是面向非专业人士的，目的是让普通用户能够理解模型的工作原理。
“interpretability”则更强调对模型内部机制和结构的理解。它涉及对模型参数、特征重要性、决策规则等更深层次的了解，通常是面向专业的数据科学家、研究人员或领域专家的，interpretability更强调深入理解模型背后的工作原理，而不仅仅是提供表面层次的解释。

实际上，这种差异也恰恰对应了两种不同的模型可解释方法，在这里我们分别叫做post-hoc explanation以及inherent/instinct interpretability；顾名思义，事后（post-hoc）可解释是指我们先有了模型，然后再对模型所产生的结果进行认为解释，试图理解模型的决策过程；即，“揭开黑盒模型的神秘面纱”；当然，揭到什么程度？揭的是“面纱”还是“裤子”？（揭错了）这就不好说了；换种说法，这个过程相当于“先有果，再去寻因”——寻找一个原因，从而说服我们自己可以信任模型。在计算机视觉领域，已经有很多经典的post-hoc可解释方法被提了出来，比较耳熟能详的有CAM（GradCAM）、SHAP、LIME等；这些方法可以帮助我们找到模型最关注的图像区域与特征，从而判断决策过程是否合理以及我们是否可以信任模型做出的决策。

举个分类场景的例子，以下是两张具有“护士”类别的图像(图源Grad-CAM)：

我们有两个不同的模型，它们都可以准确判断当前图像类别是“护士”。现在，我们使用Grad-CAM来探寻两个模型做出决策时关注的是原始图像中的哪些区域。我们可以看到，中间的模型的关注点在图片中人物的面部区域，这意味着此模型将“性别”作为判断一个人是否为“护士”的标准，这很显然是不正确的，即使在现实生活中护士群体中确实女性占多数，但是这是样本本身所带来的偏差，而模型应该尝试避免利用这种偏差去做分类判断。而右侧的模型是相对而言表现更优秀的模型，它把目光放在了人物的服饰以及工具上，显然这是更为合理的一种判断方法。由此我们可以得出结论，中间图对应的模型是带有“偏见”的模型，决策的可信度不高，而右图是一个相对而言更加值得信赖的模型。

Post-hoc explanation不是我们本篇文章关注的重点，我会另外单独写一篇来介绍。而本篇文章聚焦于第二类可解释方法，即inherent/instinct interpretability，我们暂且称这种模型为interpretable model。与post-hoc模型的“先有果，再寻因”相反，interpretable model是“由因到果”，具有天然可信任、可理解的决策过程（当然，前提是你设计的模型确实是interpretable的）。如果在设计模型时就已经考虑了可解释性，那么决策过程与结果就显得“理所当然”，我们也就可以更加放心地使用模型了。因此，interpretable model因其天生的可解释性，将更容易在现实中得以应用；而建立interpretable model也成为了众多研究人员的目标，这也是本系列文章“Towards Interpretable Deep Learning”的含义。需要在这里说明一下，interpretable models并不是与black box对立的，即，interpretable model不能与“white box”划等号；事实上，当我们深入调研相关文章后会发现，大多数interpretable model并不是舍弃了black-box的网络，而是把目光聚焦于“符合逻辑”、“合乎常理”。

因此，也许我们并不应该完全否认、放弃“black-box”，因为相信很多人和我的意见一致，那就是也许机器确实可以在数据中发现人类所不能理解的pattern，从而造就了它的高性能，也许真正带有偏见的是我们人类本身；然而，这并不影响我们强调interpretable model的重要性，因为至少在刚刚所提到的医疗、司法、金融等领域，由于这些领域是为“人”服务的，那么机器也应该做出人类可以理解的决策。关于这一个问题在这篇文章中并不想展开太多，后面有时间的话我会另写一篇博客讨论。

言归正传，现在我们已经意识到了interpretable model的重要所在，而在此方法下的众多模型中，基于概念的模型（concept-based models）是研究人员关注较多、发展较为迅速的一类模型。

所谓“concept”就是人类可以理解的概念。基于概念学习的模型通常会在网络的中间层建立一个bottleneck实现对concept的预测，进而通过较为简单的如线性分类器对学习到的概念进行整合从而得到最终预测结果：比如，将一张类别为“狗”的图片输入到网络中去，网络首先会学习并提取到一些与狗有关的概念，比如狗的耳朵、鼻子、脚等，进而通过对这些概念进行整合与分析，最终输出预测类别为“狗”。

如果把经典的端到端网络视为输入→输出的一个阶段的任务，那么基于概念学习的模型可以视为是两阶段的任务：输入→概念→输出，简而言之就是通过对中间层神经元的输出进行定义，限制为人类可理解的概念即concept，从而实现模型的可解释性。

当然，不失严谨性，以上的表述是针对大部分concept-based模型而言的，至少我所调研的基于concept的模型都是类似的逻辑。

接下来我就将具体介绍几种concept-based models，包括SENN、TCAV、CBMs、CEMs。

二、Concept-based models

1. SENN

第一篇文章是发表在NeurIPS 2018的“Towards Robust Interpretability with Self-Explaining Neural Networks”。

文章链接：https://arxiv.org/abs/1806.07538

代码链接：https://github.com/raj-shah/senn

(1) 概述

文章在Abstract部分指出，现有的机器学习可解释方法专注于posteriori explanations（即post-hoc），但是很少关注self-explaining的工作（即inherent/intrinsic interpretability），原因在于大多数方法首先倾向于保证模型性能，而在此基础上再提供事后解释。并且，对于已经训练好的模型来说，事后可解释可能是不得已的选择（毕竟当初设计模型的时候并没有对模型的可解释性加以设计/限制，只能“马后炮”，去“强行”对得到的结果解释）

论文提出了对explanation的三个要求：

Explicitness（显性）：指模型或系统中的explanation是否清晰明了。指explanation的明确程度，即explanation是直接而明确的、不模糊。在机器学习中，explicitness意味着我们能够清楚地解释模型的决策或预测基于哪些特征或数据。
Faithfulness（忠实性）：描述了explanation是否忠实于模型的内部运作或决策机制。指explanation是否准确地反映了模型的行为，并且不会误导或歪曲模型的真实运作方式。这意味着explanation应该能够如实地反映模型所基于的数据和特征，并且不应该引入不准确的信息。
Stability（稳定性）：指explanation是否随着数据或输入的微小变化而变化。稳定性意味着对于相似的输入或数据，模型的explanation应该是一致的或具有一定的稳定性。在可解释性中，稳定的解释对于确保解释的可靠性和一致性至关重要。

在Introduction部分，作者指出可解释方法的发展趋势与挑战：

高建模能力与可解释性之间的compromise：为了取得competitive performance，通常需要具有高建模能力的深度学习模型。然而，这些模型通常内部复杂，难以直接解释其决策原因。
事后解释方法：近期的研究侧重于生成基于模型性能的事后解释（优先级：性能＞可解释性），并且这些解释是局部的（locally）、针对单个样本而言的。事后解释方法不能很好地理解模型的内部工作方式，比如梯度和反向传播；也有方法通过“预言者”（oracle）查询来estimate simpler models that capture the local input-output behavior. （Note: 所谓的oracle是一种理想化的模型，它可以完美地获得输入、输出之间的关系进而提供精准预测；例如，我们可以使用一个简单的线性分类器作为oracle，这个线性分类器可以在局部完美地拟合数据做到精准预测，进而我们可以通过这个线性分类器理解模型在局部的行为从而得到一定的局部可解释性）
挑战：局部性（locality）的定义（例如，如何定义结构化数据的局部性）、可辨识性（identifiability）以及计算成本（computational cost）。
point-wise interpretation的限制：point-wise interpretation通常不对相邻输入（相邻：输入之间相似度较高）得到的解释进行比较，导致解释不稳定且常常相互矛盾。这暗示了解释的unstable，可能会因为微小变化产生完全不同的解释。

贴一段原文：

“In this work, we build highly complex interpretable models bottom up, maintaining the desirable characte ristics of simple linear models in terms of features and coefficients, without limiting performance. For example, to ensure stability (and, therefore, interpretability), coefficients in our model vary slowly around each input, keeping it effectively a linear model, albeit locally. In other words, our model operates as a simple interpretable model locally (allowing for point-wise interpretation) but not globally (which would entail sacrificing capacity). We achieve this with a regularization scheme that ensures our model not only looks like a linear model, but (locally) behaves like one.”

简而言之，SENN从简单的线性模型出发构建复杂模型，而复杂模型虽然在global看起来并不是线性模型，但是在local拥有线性模型的良好性质（可解释），并且不会限制模型性能；为了获得stable explanation，模型在面对不同输入时coefficient的变化很缓慢。

(2) 方法

(i) Generalized coefficients

本方法是从linear model的推广。线性模型可以通过以下式子表示：

$f(x)=\sum_{i}^{n}\theta _{i}x_{i}+\theta _{0}$

将input $x$ 前面的系数设置为与 $x$ 有关的函数，并省略偏置项：

$f(x)=\theta (x)^{T}\cdot x$

其中 $\theta (x)$ 是从一个complex model class $\Theta$ 中选择的，可以通过深度神经网络进行学习。但是为了保证可解释性，（至少在局部）我们应该保证距离相近的两个输入所对应的系数也应该是相近的。更准确地说，对于在 $x_{0}$ 附近所有的 $x$ 应该满足：

$\triangledown _{x}f(x)\approx \theta (x_{0})$

“In other words, the model acts locally, around each $x_{0}$ , as a linear model with a vector of stable coefficients $\theta (x_{0})$ .”

(ii) Feature basis

传统的可解释模型试图将每个变量（每个特征或者像素）视为explanation的基本单元，但是我们人类理解图像的时候很少将pixel作为基本单元，而是更加依赖于高级特征（如笔画）。作者将这种更加general的高级特征称为interpretable basis concepts。

"Formally, we consider functions $h(x): \mathcal{X}\rightarrow\mathcal{Z}\subset \mathbb{R}^{k}$ , where $\mathcal{Z}$ is some space of interpretable atoms."

即，构造一个从原始像素空间 $\mathcal{X}$ 到可解释的概念空间 $\mathcal{Z}$ 的映射 $h(x)$ ，其中 $\mathcal{Z}$ 的维度是 $k$ ， $k$ 的值不能太大以保证explanation易于理解。

“Alternatives for $h(\cdot )$ include: (i) subset aggregates of the input (e.g., with $h(x)=Ax$ for a boolean mask matrix A), (ii) predefined, pre-grounded feature extractors designed with expert knowledge (e.g., filters for image processing), (iii) prototype based concepts, e.g. $h_{i}(x)=\left \| x-z_{i} \right \|$ for some $z_{i}\in \mathcal{X}$ , or learnt representations with specific constraints to ensure grounding. ”（解释一下，prototype-based concepts通常将训练集中对预测有帮助的、具有代表性的某些信息作为prototype，比如，一张鸟类图像的某个含有鸟嘴的patch，这些prototypes是trainable的；预测时将当前输入与模型学到的prototypes进行比较，作为最终的决策依据。后面会对涉及prototype based concepts的几篇文章做介绍）

The generalized model is now:

$f(x)=\theta(x)^{T}h(x)=\sum_{i=1}^{K}\theta(x)_{i}h(x)_{i}$

模型所解释的是通过映射 $h$ 后的概念 $h(x)$ 而不是原始的像素 $x$ 。

(iii) Further generalization

将求和替换为更加general的方式： $g(z_{1,}...,z_{k})$ ，其中 $z_{i}$ 就是 $\theta$ 与 $h$ 的乘积 $\theta(x)_{i}h(x)_{i}$ ，如果 $g$ 代表一个求和函数，就对应于我们刚刚所介绍的线性模型。

为了保持类似于线性模型的可解释性，函数 $g$ 需要保证：（1）排列不变（2）每个变量 $h(x)_{i}$ 对输出的影响是独立的，避免乘法操作（3）保留 $\theta(x)_{i}$ 的符号和相对大小，符号决定了每个变量对输出影响是积极还是消极的，相对大小决定了不同特征之间的重要性排名。

(iv) Self-explaining models

将以上讨论的可解释模型公式化，以下截取自原论文：

让我们具体解释一下以上三个definition：

首先是Lipschitz连续：

对于函数 $f:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ ，如果存在一个常数 $L$ ，使得对于所有的 $x,y$ 都有：

$\left \| f(x)-f(y) \right \|\leqslant L\left \| x-y \right \|$

则称函数 $f$ 是Lipschitz连续的。

Definition 3.1中只是把 $x,y$ 对应地换成了 $h(x),h(y)$ 。回忆一下， $h(\cdot )$ 是从原始像素空间 $\mathcal{X}$ 到可解释的概念空间 $\mathcal{Z}$ 的映射，因此Definition 3.1的含义在于，可解释概念空间的任意两点都应该满足Lipschitz连续（globally）。Note：在现实场景中的数据常常分布在一个不规则的低维流形上，因此在全局都施加统一的bound过于严格了，由此引出Definition 3.2。
Definition 3.2在3.1的基础上，把 $x$ 限制在 $\delta$ -邻域内，从global condition变为local condition，使可解释概念空间至少在局部是Lipschitz连续的。Note： $L$ 和 $\delta$ 都是与 $x_{0}$ 有关的，这代表“Lipschitz constant can vary throughout the space." 由此引出对本文方法的定义。
Definition 3.3：如果 $f: \mathcal{X}\rightarrow \mathcal{Y}$ 满足以下条件，则称其是self-explaining prediction model
- P1) $g$ 是单调的、独立相加的；
- P2) $g$ 对 $z_{i}$ 的导数非负；
- P3) $\theta$ is locally diffrence bounded by $h$ 。Note：如果 $h$ 是恒等函数 $h(x)=x$ ，那么就是原始的Lipschitz连续定义。回顾，此处 $h(\cdot )$ 是从像素空间到可解释概念空间的映射；
- 要保证 $h(\cdot )$ 确实把原始的像素空间映射到了可解释的空间，每一维 $h_{i}(x)$ 都是可解释的；
- $k$ 很小，即可解释空间维度低。

最后，对于输入 $x$ ， $f(x)$ 的explanation会是一个集合 $\varepsilon _{f}(x)\equiv \left \{ h_{i}(x),\theta _{i}(x)\right \}$ ，其中的元素分别代表basis concepts以及对应的influence scores。

当 $\theta$ （可能也有 $h$ ）是通过神经网络实现时，就把这个网络称为自解释神经网络SENN。

如上所述， $\theta$ 相对于 $h$ 应该具有稳定性，即，不会因为输入 $x$ 发生微小的改变而导致其对应的explanation $\varepsilon _{f}(x)$ 发生巨大变化。

设 $f$ 为关于 $h(x)$ 的函数：

$f(x)=g(h(x))$

设 $z=h(x)$ ，通过链式法则我们可以得到：

$\triangledown _{x}f=\triangledown _{z}f\cdot J_{x}^{h}$

其中 $J_{x}^{h}$ 是 $h$ 关于 $x$ 的Jacobian；

给定点 $x_{0}$ ，得到对应的可解释概念 $h(x_{0})$ ， $h(x_{0})$ 对应的influence score $\theta(x_{0})$ 应该满足：

$\theta (x_{0})\approx \triangledown _{z}f$

也就是说，we want $\theta(x_{0})$ to behave as the derivative of $f$ with respect to the concept vector $h(x)$ around $x_{0}$ ，即 $f$ 对概念向量 $h(x_{0})$ 在 $x_{0}$ 处的偏导；这个偏导的意义实际上就是模型 $f$ 在概念 $h(x_{0})$ 处的影响因子。这样，就可以保证输入发生微小改变时其explanation也不会发生太大变化。

实际上这样的操作很难执行，因此可以把 $\theta (x_{0})\approx \triangledown _{z}f$ 代入 $\triangledown _{x}f=\triangledown _{z}f\cdot J_{x}^{h}$ ，可以得到以下的proxy condition：

$\mathcal{L}_{\theta }(f(x)):=\left \| \triangledown _{x}f(x)-\theta (x)^{\mathrm{T}}\cdot J_{x}^{h} \right \|\approx 0$

$\mathcal{L}_{\theta }(f(x))$ 中的三项都可以通过计算得到，当使用可微架构 $h$ 和 $\theta$ 时，我们获得 $\mathcal{L}_{\theta }(f(x))$ 的梯度，从而将其作为优化目标中的正则化项，加入此正则项可以权衡性能以及参数的局部稳定性（从而实现可解释性）。最终的损失函数为 $\mathcal{L}_{y}(f(x),y)+\lambda \mathcal{L}_\theta(f)$ 。

(v) Learning interpretable basis concepts

Interpretable concepts应该满足以下要求：

Fidelity（保真度）: 用concept表示x应保留有关的信息；
Diversity（多样性）: 输入应可表示为几个不重叠的concepts；
Grounding（基础性）: concepts应被人类所理解；

贴一段原文：

（1）用auto-encoder的方式训练映射 $h$ ，保证 $h$ 学到的是有意义的representation；

（2）通过稀疏性保证 $h$ 的diversity；

（3）通过查看每个concepts的最大激活case（和prototye的理念一样，从训练集中选择具有代表性的样本）来实现可视化。其中，可视化的方法有三种：

(1) 最大激活某一个concept；

(2) 类似的，最大激活某一个concept，同时要尽可能少地激活其它concepts；

(3) 观察连接到每个concept的filter。

本实验使用的是第一种方法，后两种方法留给其他人来做。

我们来看一下整体的流程图：

两个路径：一个路径基于auto-encoder的重建损失优化从原始像素空间到可解释概念空间的映射 $h$ ；另一个路径通过stability的限制对 $\theta$ 进行正则化；最终将二者合二为一作为explanation，并做融合以预测最终的分类标签。

(3) 实验及结果

(i) 可解释性

红色是消极影响，蓝色是积极影响。（原文可能标错了）

Cpt. 3貌似代表着diagonal strokes，尤其在7中比较明显，因此在“9”和“2”中Cpt. 3都对最终预测起着积极影响。

(ii) 可信度

(iii) 稳定性

添加噪声对SENN的影响不大。

Fig.5(A/B)的结果体现了稳定性和预测精度之间存在取舍，更严格的正则化会导致模型精度下降；从Fig.5C可看出SENN全面超越了LIME和SHAP。

2. TCAV

第二篇文章是发表在ICML 2018的“Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)”。

文章链接：https://arxiv.org/abs/1711.11279

代码链接：https://github.com/pytorch/captum/blob/master/tutorials/TCAV_Image.ipynb