Counterfactual Explanations for Machine Learning: A Review

Counterfactual Explanations for Machine Learning: A Review

机器学习的社会意义

建立公平性和使自动化工具的决策具有可解释性是我们可以确保机器学习对社会产生公平影响的两种主要方法。公平性研究旨在开发算法,以确保系统产生的决策不会偏向特定的人口统计学群体,这些群体是根据敏感特征(例如种族,性别,宗教信仰)定义的。反歧视法律规定,使用敏感功能作为任何决定的基础是非法的。有偏见的决策也可能引起广泛的批评,因此对于避免此类行为很重要。

关联

关联可以理解成找相关性。之前的机器学习方法,现在的深度学习方法本质都是去找一种相关性,要解决的是a和b相关吗?a和b的相关程度到底有多少?这个相关程度f(x)来衡量,还是拿图片分类的举例,分类一张图片是将输入x和我们的目标y进行关联,那这种关联是不可解释的,也就是神经网络为什么会将a图片识别成b类别?它从哪些指标、哪些特征里面发现和最终的目标y是有关联的,我们并不知道。也就是说神经网络它是一个黑盒方法。以深度学习为代表的表示机器学习取得了巨大的成功,尤其是在特征提取的能力方面。但是与此同时,一个巨大的问题是深度神经网络的黑箱问题和不稳定性问题。其中的一个根本原因,是基于相关性的统计模型容易学习到数据中的“伪关系(spurious relation)”,而非因果关系,从而降低了泛化能力和对抗攻击的能力。在一个真实的例子中,军方训练了一个分类器,以将敌方坦克与友军坦克区分开。尽管分类器在训练和测试数据集上表现良好,但在战场
上的表现却很糟糕。后来发现,友军坦克的照片是在晴天拍摄的,而敌方坦克的照片只能在阴天点击。分类器发现使用背景之间的差异作为区别特征要容易得多。当前统计机器学习主要关注对表征的拟合,寻找的是变量之间的相关性,而非潜在的因果性。这样的认识会使科学研究停留在较浅的关联层面,导致模型的鲁棒性和可解释性丧失,阻断了进一步探究干预变量,以及反事实推断(即假设某一变量完全相反而其他变量不变时,该变量对结果的影响)的能力。Pearl 认为,智能的机器应该能够彼此沟通交流,通过提出反事实对话(如「你应该怎样做」)而作出更好的表现。

反事实

反事实逻辑可以用程序中的IF(如果)来表达。反事实逻辑的本义是假设我们不存在的事情,而不存在的事情也需依据一定的事实基础,否则我们无法做出合理推断。

例子:假设爱丽丝走进一家银行并寻求住房抵押贷款。该决策很大程度上受到机器学习分类的影响,该分类考虑了Alice的特征向量{Income,CreditScore,Education,Age}。不幸的是,爱丽丝因其寻求的贷款而被拒绝,并想知道(1)为什么拒绝了该笔贷款?(2)她可以做些什么,以便将来可以批准贷款?前一个问题可以用诸如“CreditScore太低”之类的解释来回答,并且与大多数传统的可解释性方法类似。后一个问题构成了反事实解释的基础:为了在分类器决策边界的另一端结束,可以对Alice的特征向量进行哪些小的更改。假设银行(通过反事实说明的形式)向爱丽丝提供了有关她可能会更改的建议,以备下次批准。系统建议的反事实可能是使她的收入增加$10K或获得新的硕士学位,或两者兼而有之。前一个问题的答案并没有告诉爱丽丝该采取什么行动,而反事实的解释明确地帮助她。反事实解释中的假设是,当申请人将来申请时,基础分类器不会改变。如果假设成立,反事实保证了将来的预期结果。

期望研究的主要主题

前面的示例暗示了有效的反事实说明的许多理想属性。对于爱丽丝来说,反事实应该量化相对较小的变化,这将导致期望的替代结果。(尽可能小的改变)爱丽丝可能需要将她的收入增加1万美元才能获得贷款批准,即使增加5万美元可以完成这项工作,但如果她能进行尽可能小的更改,这对她来说是最务实的。(尽可能少的改变)此外,爱丽丝可能会在乎一个更简单的解释-她更容易专注于更改一些事情(例如仅收入)而不是尝试更改许多功能。爱丽丝当然也很在乎她正在提出自己的建议是现实可行的。如果建议将她的年龄降低十岁,那将毫无用处。(可实现的改变

在这里插入图片描述

图1:最初归为负类的数据点的两个可能路径(越过蓝色)越过决策边界。两条路径的端点(以红色和绿色显示)都是原始点的有效反事实。请注意,红色路径最短,而绿色路径紧贴训练数据的流形,但更长。

  • 有效性

    一个反事实,如果确实被归入了期望的类别,就是一个有效的反事实。如图1所示,红色和绿色所示的点是有效的反事实,因为它们确实在正类区域中,并且到红色反事实的距离小于到绿色反事实的距离。

    等式(1)指出了优化目标,这是为了使反事实(𝑥 ′)与原始数据点(𝑥)之间的距离最小,但要受制于反事实上分类器的输出是所需标签的约束(𝑦′ ∈ Y)

    将目标转换为可微分的无约束形式会产生两个项(公式(2))。第一项鼓励在反事实上分类器的输出接近所需的类别,第二项促使反事实在分类上接近原始数据点。
    arg ⁡ min ⁡ x ′ d ( x , x ′ )  subject to  f ( x ′ ) = y ′ arg ⁡ min ⁡ x ′ max ⁡ λ λ ( f ( x ′ ) − y ′ ) 2 + d ( x , x ′ ) \begin{array}{l} \arg \min _{x^{\prime}} d\left(x, x^{\prime}\right) \text { subject to } f\left(x^{\prime}\right)=y^{\prime} \\ \arg \min _{x^{\prime}} \max _{\lambda} \lambda\left(f\left(x^{\prime}\right)-y^{\prime}\right)^{2}+d\left(x, x^{\prime}\right) \end{array} argminx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值