【论文笔记】AAAI2022:Do Feature Attribution Methods Correctly Attribute Features?

CV可解释性方向,第一次整理论文笔记,如有错误请批评指正。

原文链接:https://www.semanticscholar.org/paper/Do-Feature-Attribution-Methods-Correctly-Attribute-Zhou-Booth/426734685283b4a0c08b34cd9e996e2e30e7f7ee

代码:https://github.com/YilunZhou/feature-attribution-evaluation 

Abstract

特征归因方法,在机器学习可解释性研究中很常见。这些方法计算了每一个输入特征的属性,来代表该特征的重要性,但是对于“attribution”,还没有准确的定义,导致很多方法没有系统化的评估方法,因为缺少GT归因而变得尤其复杂。为解决此问题,我们提出了数据集修改程序来引入这种GT。通过这个程序,我们评估了三种常见的方法:显著图(saliency maps)、rationale和注意力。我们找出了几个缺陷并加入了新的角度,到更多的质疑这些方法准确性和可靠性的证据中。我们进一步讨论了补救的途径并提出了新的归因方法,在部署前对GT进行测试。

1 Introduction

以训练一个X光癌症检测网络,数据有两种来源:正规医院和专业的癌症中心。癌症中心提供的数据包含更多的癌症种类,但是设想一下,癌症中心在图像的左上角添加一个小的时间戳水印的话。因为时间戳和癌症的表现强相关,那么模型会利用这个关系作为预测。

重点:在模型部署之前,要确保模型是基于真实的医学信号做预测,而不是水印这类图像的组件。如果这些标志被看作为先验,我们就可以用反事实对(counterfactual pairs)——有/无水印的图像去评估模型,并计算准确度差异去衡量水印的影响。然后,对于几乎所有的数据集来说,我们不能预知所有可能的标志(artifact)。所以,例如显著图的特征归因方法用于识别对于预测有作用的区域,然后人类再根据这些区域,推测是哪些标志的作用。这种训练-解释的工作流程(pipeline)广泛应用于数据驱动的医学诊断等很多领域。

但是,这种方法假设,归因方法准确而且没有漏掉有影响的特征。真的是这样吗?直接对自然数据集进行评估是不现实的,因为我们希望归因方法找到的相关关系非常杂乱。很多评估方法试图通过其他的指标来回避这个问题,但是都有局限性,因为缺少GT。

相反,我们提出在半自然数据集上评估这些归因方法,自然数据集经过系统化的修改,一i纳入了GT用于归因。这种修改(如图1)保证了任何一个分类器都要依靠人为的操作。

然后,我们为修正归因值提出了几个必要条件,例如,已知不影响模型决策的特征不应该归因。高层的想法是域一般化(domain-general),我们将它实例化为图像和文本数据来评估用于解释常见深度学习架构的显著图、rationale模型和注意力机制。找出几个失败的模型,讨论原因和修改方向。最后,我们号召新的归因方法的提出,在部署前不需要GT来验证特征的属性。

2 相关工作

2.1 特征归因方法

特征归因方法给输入特征打分,分数的绝对值表示特征对模型预测或表现的贡献。

显著图(saliency maps)

用和图像I等大的矩阵S来解释该图像,S代表图像I的像素值分布。

注意力机制

为更好地保留连续信息。用于归因,因为标准不一致,所以有效性有争议。

Rationale models

用于二阶段文本分类,筛选器提取输入,分类器做预测。

2.2 评估

特征归因的核心是表述模型数学特性。例如,梯度描述对无穷小的输入扰动的敏感度。我们把这些数学属性和高层表示量(如feature importance)关联。

常见的一种方式是,评估和人工判断的联系,但是通过独特的推理机制,使用模型和人类可以达到同样的预测。另一种方法是,移除由最高归因值的特征,评估某些指标。其中一个是预测结果的变化,但是这种方法不能用于非线性;另一个指标是,模型再训练的表现,当不同的特征得出了相同的准确率时该方法也不可行。

3 引入归因值

把特征分为两类,对模型有作用的为Fc,无用的为Fn。条件一,不能漏掉重要特征Fc。但是,该操作实际上难实现。所以,要对数据集进行修改,比如让任何一个模型只利用医学特征都不能达到高准确率(因为引入了标签噪声),因此才能使利用了时间戳的模型才能达到高准确率。之后,对该归因方法识别时间戳的贡献的效果进行评估。

相反,引入无关特征Fn,独立于标签,比如随即在图像中加白边。归因方法不应关注Fn。和Fn有关的都对模型的表现有害,那么,如果性能提升,说明越好的预测结果,越不受Fn的影响。

4 数据集修改

标签重新分配

目标是保证模型必须依靠某些引入的特征(如水印)来达到高性能。但是,理论上,模型可以利用任何一个特征,因此,无视新特征,即使和标签强相关。

以二分类为例。标签有r的概率保留,1-r的概率翻转。r=0.5时,没有特征和标签有信息关联,模型的性能是随机的。

5 评估显著图

模型:

ResNet-34

参数随机初始化

数据集:

鸟分类数据集,CUB-200-2011

训练/验证/测试集比例:100/100/100

输入:

设置五种操作方式来代表引入的artifacts,模糊(blurring)、亮度(brightness)、色调变化(hue shift)、噪声(pixel noise)和水印。

图四为三种操作方式对有效区域的影响。

 5.5 讨论

模型解释的一种应用是检测出所有的相关性,但是可行性差。本文建议,在分析实际的模型之前,先训练一些确定使用了某些一直特征的模型,然后在模型上dry run可解释性方法,确保这些特征确实被关注到了。

5.1-5.4 详见原文

6 评估文本注意力机制

注意力机制不能用归因来解释,用于模型理解和调试。对于天然数据集,不可避免地需要基于代理指标,但是建议以后提出指标的时候,先用GT校准。

7 评估文本Rationale模型

rationale模型的结构保证了特征和预测有一定的关系,但是这不代表对于模型理解有用。这种方法只能关注Fc,但是同时报看了很多无关的Fn特征,而且无关的文章对词句有误导。实验发现,rationale模型跟倾向于选择无关的特征,这些特征通过给人更多不必要的信息来混淆模型的决策过程。

cv小白第一次整理论文笔记,希望大家批评指正,谢谢!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值