文章目录
一、可解释性
可解释性的定义:可解释性是⼈们能够理解决策原因的程度。另⼀种定义是 :可解释性是指⼈们能够⼀致地预测模型结果的程度。机器学习模型的可解释性越⾼,⼈们就越容易理解为什么做出某些决策或预测。
可解释性的重要性
如果模型具有可解释性,我们可以更好的检查以下性质:
- 公平性 (Fairness):确保预测是公正的,不会隐式或显式地歧视受保护的群体。可解释的模型可以告诉你为什么它决定某个⼈不应该得到贷款,并且使⼈们更容易判断该决策是否基于学习⼈⼜统计学偏见 (例如种族)。
- 隐私 (Privacy):确保保护数据中的敏感信息。
- 可靠性 (Reliability) 或鲁棒性 (Robustness):确保输⼊的⼩变化不会导致预测发⽣剧烈变
化。 - 因果关系 (Causality):检查是否只找到因果关系。
- 信任 (Trust):与⿊匣⼦相⽐,⼈们更容易信任解释其决策的系统。
何时我们不需要机器学习模型的可解释性:
- 如果模型没有重大影响,则不需要解释性。
- 当问题被研究得很深入时,就不需要解释性了。
- 可解释性可能使⼈或程序能够操纵系统
可解释性方法的分类
大体可以分为两类:
可解释性模型(本质的可解释性):例如短的决策树或者是稀疏线性模型
模型无关的解释性(事后的解释性):在模型训练完成后进行解释
解释方法的输出——可以根据解释⽅法的输出⼤致区分各种解释⽅法。
• 特征概要统计量 (Feature Summary Statistic):许多解释⽅法为每个特征提供概要统计量。有些⽅法为每个特征返回⼀个数字,例如特征重要性,或者更复杂的输出,例如成对特征交互强度,每个特征对表⽰为⼀个数字。
• 特征概要可视化 (Feature Summary Visualization):⼤多数特征概要统计信息也可以可视化。有些特征概要实际上只有在可视化的情况下才有意义,并且表格不能满⾜要求。特征的部分依赖就是这样⼀种情况。部分依赖图是显⽰特征和平均预测结果的曲线。呈现部分依赖关系的最佳⽅法是实际绘制曲线,⽽不是打印坐标。
• 模型内部 (例如学习的权重) (Model Internals):对于本质上可解释的模型的解释属于这⼀类,如线性模型中的权重或决策树的学习树结构 (⽤于分割的特征和阈值)。但对于像线性模型,因为权重同时是模型内部和特征概要统计量,所以此时两者的界限是模糊的。输出模型内部结构的另⼀种⽅法是在卷积神经⽹络中将学习的特征检测器可视化。根据定义,输出模型内部的可解释性⽅法是特定于模型的 (请参阅下⼀个标准)。
• 数据点 (Data Point):这个类别的⽅法是返回数据点 (已经存在的或新创建的) 以使模型可解释。⼀种⽅法叫做反事实解释 (Counterfactual Explanations),为了解释对数据实例的预测,该⽅法通过⽤⼀些⽅式改变某些特征以改变预测结果 (例如预测类别的翻转),找到相似的数据点。另⼀个⽅法是识别预测类的原型,这⾥输出新数据点的解释⽅法要求可以解释数据点本⾝。这对图像和⽂本很有效,但对于具有数百个特征的表格数据不太有⽤。
• 本质上可解释模型:解释⿊盒模型的⼀个解决⽅案是⽤可解释模型 (全局地或局部地) 对其进⾏近似。⽽这些可解释模型本⾝可以通过查看模型内部参数或特征概要统计量来解释。
特定于模型 (Model-specific) 还是模型无关 (Model-agnostic)? 特定于模型的解释⽅法仅限于特定的模型类,例如线性模型中回归权重的解释就是特定于模型的解释,因为根据定义,本质上可解释模型的解释通常是特定于模型的解释。仅应⽤于解释如神经⽹络的⼯具也是特定于模型的。相对应的,与模型⽆关的⼯具可以⽤于任何机器学习模型,并在模型经过训练后应⽤ (事后的)。这些模型⽆关的⽅法通常通过分析特征输⼊和输出来⼯作。根据定义,这些⽅法是不能访问模型的内部信息,如权重或结构信息。
解释的性质
解释 (Explanation) 通常以一种人类可理解的方式将实例的特征值与其模型预测联系起来
解释方法的性质
• 表达能力 (Expressive Power):是该⽅法能够产⽣的解释的 “语⾔” 或结构。解释⽅法可以
⽣成 IF-THEN 规则、决策树、加权和、⾃然语⾔或其他东西。
• 半透明度 (Translucency):描述了解释⽅法依赖于查看机器学习模型 (如其参数) 的程度。例如,依赖于本质上可解释模型 (如线性回归模型,这是特定于模型的) 的解释⽅法是⾼度透明的。⽽⽅法仅依赖于修改输⼊和观察预测,其半透明度为零。根据具体情况,可能需要不同程度的半透明度。⾼半透明度的优点是该⽅法可以依赖更多的信息来⽣成解释。低半透明度的优点是解释⽅法更易于移植。
• 可移植性 (Portability):描述了使⽤解释⽅法的机器学习模型的范围。低半透明度的⽅法
具有较⾼的可移植性,因为它们将机器学习模型视为⿊盒。代理模型可能是具有最⾼可移植
性的解释⽅法。⽽仅适⽤于递归神经⽹络的⽅法具有低可移植性。
• 算法复杂度 (Algorithmic Complexity):描述了⽣成解释的⽅法的计算复杂性。当计算时间
成为⽣成解释的瓶颈时,必须考虑此性质。
单个解释的性质:
• 准确性 (Accuracy):解释预测看不见的数据会如何?如果将解释代替机器学习模型进⾏预测,那么⾼准确性尤为重要。如果机器学习模型的准确性也很低,并且⽬标是解释⿊盒模型的作⽤,那么低准确性就很好了。在这种情况下,只有保真度才是重要的。
• 保真度 (Fidelity):解释对⿊盒模型预测的近似程度如何?⾼保真度是解释的重要性质之⼀,毕竟低保真度的解释对解释机器学习模型是⽆⽤的。准确性和保真度密切相关。如果⿊盒模型具有较⾼的准确性并且解释有⾼保真度,则解释也具有较⾼的准确性。⼀些解释只提供局部保真度,这意味着该解释仅⾮常适合于数据⼦集的模型预测 (例如局部代理模型),甚⾄仅适⽤于单个数据实例 (例如 Shapley 值)。
• 一致性 (Consistency):经过相同任务训练并产⽣相似预测的模型之间的解释有多少不同?例如我们在同⼀个任务上训练⽀持向量机和线性回归模型,两者都产⽣⾮常相似的预测。然后我们选择⼀种解释⽅法去计算解释,并分析这些解释之间的差异。如果解释⾮常相似,说明是⾼度⼀致的。但这个性质可能会有点棘⼿,因为这两个模型可以使⽤不同的特征,但得到相似的预测 (也叫 “罗⽣门效应”)。在这种情况下,⾼度⼀致性又是不可取的,因为解释必须⾮常不同。但如果模型确实依赖于相似的关系,则需要⾼⼀致性。
• 稳定性 (Stability):类似实例之间的解释会有多相似?⼀致性是⽐较模型之间的解释,⽽稳定性则⽐较同⼀模型的相似实例之间的解释。⾼稳定性意味着实例特征的细微变化基本上不会改变解释 (除⾮这些细微变化也会强烈改变预测)。缺乏稳定性可能是解释⽅法差异很⼤的结果。换句话说,解释⽅法受到待解释实例的特征值的微⼩变化的强烈影响。解释⽅法的不确定性部分也可能导致稳定性不⾜,例如数据采样步骤,就像局部代理模型使⽤的那样。⾼稳定性始终是可取的。
• 可理解性 (Comprehensibility):⼈类对解释的理解程度如何?这很难定义和衡量,但⾮常重要。⽐较容易接受的观点是可理解性取决于读者和观众。衡量可理解性的想法包括测量解释的⼤⼩ (线性模型中⾮零权重的特征的数量,决策规则的数量等等) 或测试⼈们如何从解释中预测机器学习模型的⾏为。还应考虑解释中使⽤的特征的可理解性,特征的复杂转换可能还不如原来的特征容易理解。
确定性 (Certainty):解释是否反映了机器学习模型的确定性?许多机器学习模型只给出预测,⽽没有关于预测正确的模型置信度的描述。如果模型预测⼀个病⼈患癌症的概率为 4%,那么是否可以确定另⼀位特征值不同的病⼈患癌症的概率为 4%?⼀个包含模型确定性的解释是⾮常有⽤的。
• 重要程度 (Degree of Importance):解释在多⼤程度上反映了解释的特征或部分的重要性?例如,如果⽣成决策规则作为对单个预测的解释,那么是否清楚该规则的哪个条件最重要?
• 新颖性 (Novelty):解释是否反映了待解释的数据实例来⾃远离训练数据分布的 “新” 区域?在这种情况下,模型可能不准确,解释可能毫⽆⽤处。新颖性的概念与确定性的概念有关。新颖性越⾼,由于缺乏数据,模型的确定性就越低。
• 代表性 (Representativeness):⼀个解释能覆盖多少个实例?解释可以覆盖整个模型 (例如线性回归模型中的权重解释),也可以只表⽰单个预测。
人性化的解释
⼈类更喜欢简短的解释 (只有 1 或 2 个原因),这些解释将当前的情况与事件不会发生的情况进行了对比,特别是异常原因提供了很好的解释。解释是解释者与被解释者 (解释的接收者) 之间的社会互动,因此社会背景对解释的实际内容有很⼤的影响。
- 解释具有对比性:⼈类通常不会问为什么会做出某种预测,但会问为什么会做出这种预测而不是另⼀种预测。我们倾向于在反事实的情况下思考,即 “如果输⼊ X 不同,预测会是怎样的? ”。
- **选择性的解释。**⼈们不希望对涵盖事件的实际原因和完整原因进⾏解释。我们习惯于从各种可能的原因中选择⼀个或两个原因作为解释。作为证明,打开电视新闻: “股票价格的下跌被归咎于由于最新软件更新的问题⽽对该公司产品越来越强烈的反弹。 ”(解释要简短,即使真实情况很复杂,但只给出 1 到 3 个原因。LIME 在这⽅⾯就做得很好。)
- 解释是社会性的:注意应用的环境和目标受众。
- 解释的重点是异常:⼈们更关注异常原因来解释事件 (Kahnemann 和 Tversky, 1981[10])。这些原因发⽣的可能性很⼩,但还是发⽣了。消除这些异常原因将⼤⼤改变结果 (反事实解释)。
- 解释是真实的:良好的解释是真实的,但是并不意味着是“好的”解释的最重要的因素。
- 好的解释与被解释者的先验知识是一致的
- 好的解释是普遍性和能够被人认可的
二、可解释模型
线性回归
逻辑回归
决策树
决策规则
RuleFit
其他的可解释方法:朴素贝叶斯,k近邻
三、模型无关的方法
部分依赖图
用于回归的部分依赖图定义
其中
x
s
x_s
xs代表我们想要了解的预测的相关特征,
x
c
x_c
xc代表其他的特征,
(
x
s
,
x
c
)
(x_s,x_c)
(xs,xc)代表总的特征空间
使用蒙特卡洛方法近似方法来估算
f
^
x
s
\hat{f}_{xs}
f^xs:
f
^
x
s
(
x
s
)
=
1
n
∑
i
=
1
n
f
^
(
x
s
,
x
c
(
i
)
)
\hat {f}_{x_s}(x_s)=\frac{1}{n}\sum^n_{i=1}\hat{f}(x_s,x_c^{(i)})
f^xs(xs)=n1i=1∑nf^(xs,xc(i))
部分依赖图的缺点:
- 实际的特征最大数量为2,因为三维以上对可解释性效果不佳
- 最大的缺点在于假设特征之间是相互独立的
个体条件期望(ICE)
部分依赖图是个体条件期望整体平均,而个体条件期望更关注于个体
对
{
(
x
s
(
i
)
,
x
c
(
i
)
)
}
\{(x_s^{(i)},x_c^{(i)})\}
{(xs(i),xc(i))}每个实例,曲线
f
^
s
(
i
)
\hat{f}_s^{(i)}
f^s(i)是关于
x
s
(
i
)
x_s^{(i)}
xs(i)的,此时
x
c
(
i
)
x_c^{(i)}
xc(i)是固定不变的
例:这里的每条线都代表一个实例在年龄保持更改是对最终判断的影响
缺点:
- 一次只能有意义的现实一个特征
- 由于特征有联合分布导致可能线中的某些点是无效数据点
- 很难看到数据的平均值(可以将部分依赖图和ICE相结合)
累计局部效应图(ALE)
特征交互
略
置换特征重要性
略
全局代理模型
执⾏以下步骤以获得代理模型:
- 选择数据集 X。这可以是⽤于训练⿊盒模型的相同数据集,也可以是来⾃同⼀分布的新数据集。你甚至可以根据应用程序选择数据的⼦集或点的网格。
- 对于选定的数据集 X,获取黑盒模型的预测。
- 选择⼀种可解释的模型类型 (线性模型,决策树等)。
- 在数据集 X 及其预测上训练可解释模型。
- 恭喜你!你现在有了⼀个代理模型。
- 衡量代理模型复制⿊盒模型预测的效果。
- 解释代理模型。
衡量代理模型对于黑盒模型的复制能力
R
2
=
1
−
S
S
E
S
S
T
=
1
−
∑
i
=
1
n
(
y
^
∗
(
i
)
−
y
^
(
i
)
)
2
∑
i
=
1
n
(
y
^
(
i
)
−
y
ˉ
(
i
)
)
2
其
中
y
^
∗
(
i
)
是
代
理
模
型
的
第
i
个
预
测
值
,
y
^
(
i
)
是
黑
盒
模
型
的
第
i
个
预
测
值
,
y
ˉ
(
i
)
是
黑
盒
模
型
的
预
测
平
均
值
R^2=1-\frac{SSE}{SST}=1-\frac{\sum^n_{i=1}(\hat{y}^{(i)}_*-\hat{y}^{(i)})^2}{\sum^n_{i=1}(\hat{y}^{(i)}-\bar{y}^{(i)})^2}\\ 其中\hat{y}^{(i)}_*是代理模型的第i个预测值,\hat{y}^{(i)}是黑盒模型的第i个预测值,\bar{y}^{(i)}是黑盒模型的预测平均值
R2=1−SSTSSE=1−∑i=1n(y^(i)−yˉ(i))2∑i=1n(y^∗(i)−y^(i))2其中y^∗(i)是代理模型的第i个预测值,y^(i)是黑盒模型的第i个预测值,yˉ(i)是黑盒模型的预测平均值
局部代理模型(LIME)
训练局部代理模型的方法
- 选择你想要对其黑盒预测进行解释的感兴趣实例。
- 扰动你的数据集并获得这些新点的黑盒预测。
- 根据新样本与目标实例的接近程度对其进行加权。
- 在新数据集上训练加权的,可解释的模型。
- 通过解释局部模型来解释预测。
Shapley值(思想来自自由博弈论)
“游戏” 是数据集单个实例的预测任务。
“收益” 是此实例的实际预测值减去所有实例的平均预测值。
“玩家” 是实例的特征值,它们协同工作以获得收益。
如图所示,禁止猫入内对预测的贡献为
31000
−
32000
=
−
10000
31000-32000=-10000
31000−32000=−10000
SHAP(SHapley Additive ExPlanations)
略
四、基于样本的解释方法
基于样本的解释⽅法 (Example-based Explanations) 选择数据集的特定实例来解释机器学习模型的⾏为或解释底层数据分布。
基于样本的方法通过选择数据集的实例来而不是通过创建特征概要(如特征重要性或者部分依赖)来解释模型
例子:医师看到病⼈出现异常咳嗽和轻度发烧。病⼈的症状使她想起了她多年前遇到的患有类似症状的另⼀位病人。她怀疑她⽬前的病⼈可能患有相同的疾病,并且她采集了⾎液样本以测试这种检测疾病。
基于样本的解释的蓝图是:事物 B 与事物 A 类似,事物 A 导致 Y,因此我预测事物 B 也将引起 Y。隐式地,⼀些机器学习⽅法是基于样本的。决策树根据对预测目标很重要的特征 (数据点的相似性) 将数据划分为节点。决策树通过查找相似的实例 (= 在相同的终端节点中) 并返回这些实例结果的平均值作为预测来获取新数据实例的预测。 k-最近邻 (knn) 方法可以显式地处理基于样本的预测。对于⼀个新实例, knn 模型可以找到 k 个最近的邻居 (例如,k=3 个最近的实例),并返回这些邻居结果的平均值作为预测。可以通过返回 k 个邻居来解释 knn 的预测,这同样仅当我们有⼀个好方法表示单个实例时才有意义。
反事实解释(Counterfactual Explanations)
反事实解释 (Counterfactual Explanations) 按以下形式描述了⼀种因果关系: “如果没有发生X,那么 Y 就不会发生”。
基于反事实解释的关键在于如何通过最小化更改特征参数来产生相反的结果或者大于(或者小于)某些阈值的结果从而能够解释模型,这种方式很符合人类直觉,因为通过对比来进行解释通常是人们进行解释
预测的反事实解释描述了将预测更改为预定义输出时特征值的最小变化,反事实解释⽅法与模型⽆关,因为它仅适⽤于模型输⼊和输出。由于该解释可以表示为特征值差异的概要 (“更改特征 A 和 B 以更改预测”),因此该⽅法在模型⽆关的章节中也很适⽤。但是反事实解释本⾝就是⼀个新实例,因此它存在于本章中 (“从实例 X 开始,改变 A 和 B 以得到⼀个反事实实例”)。与原型不同,反事实不⼀定是来⾃训练数据的实际实例,⽽可以是特征值的新组合。
一些具有良好解释性的反事实例子:
- Peter 申请了⼀笔贷款,并被 (基于机器学习的) 银⾏软件拒绝了。他想知道为什么他的申请被拒绝,以及他怎样才能提⾼获得贷款的机会。 “为什么” 的问题可以表述为反事实:对特征 (收⼊,信⽤卡数量,年龄等) 的最⼩变化是什么,可以使预测从拒绝变为批准?⼀个可能的答案是:如果 Peter 每年能多赚 10,000 欧元,他将获得贷款。或者,如果 Peter 的信⽤卡较少,并且 5 年前没有拖欠贷款,那么他会得到贷款。 Peter 永远不会知道拒绝的原因,因为银⾏对透明度没有兴趣但这是另⼀回事。
- Anna 想把她的公寓租出去,但她不确定要收取多少费用,因此她决定训练⼀个机器学习模型来预测租⾦。当然,由于 Anna 是⼀位数据科学家,因此她可以解决⾃⼰的问题。输⼊有关⾯积大小、位置、是否允许携带宠物等的所有详细信息之后,模型告诉她可以收取 900 欧元。她期望 1000 欧元或更多,但是她相信自己的模型,并决定使⽤公寓的特征值了解如何提⾼公寓的价格。她发现,如果公寓⾯积再⼤15 平方米,则可以以超过 1000 欧元的价格出租。有趣,但不可行,因为她无法扩⼤自己的公寓。最后,通过仅在其控制下调整特征值 (内置厨房是/否,允许宠物是/否,地板类型等),她发现如果允许宠物并安装隔热效果更好的窗户,她可以收取 1000 欧元。 Anna 凭直觉与反事实合作来改变结果。
好的反事实应该具有的条件:
- 反事实实例应该尽可能的联系产生预定义的预测
- 反事实要尽可能接近特征实例(即最小化特征值修改)
- 反事实的特征值应该是符合可能性的特征值
生成反事实解释
我们定义⼀个损失函数,该函数将感兴趣的实例、反事实和期望的 (反事实)结果作为输⼊。损失度量反事实的预测结果与预定义结果之间的距离,以及反事实与感兴趣实例之间的距离。我们可以使⽤优化算法直接优化损失,也可以通过在实例周围进行搜索来优化损失。建议减少以下损失
L
(
x
,
x
′
,
y
′
,
λ
)
=
λ
⋅
(
f
^
(
x
′
)
−
y
′
)
)
2
+
d
(
x
,
x
′
)
L(x,x',y',\lambda)=\lambda \cdot (\hat f({x}')-{y}'))^2+d(x,{x}')
L(x,x′,y′,λ)=λ⋅(f^(x′)−y′))2+d(x,x′)
其中
x
′
{x}'
x′代表反事实,
(
f
^
(
x
′
)
−
y
′
)
)
2
(\hat f({x}')-{y}'))^2
(f^(x′)−y′))2代表反事实预测结果和期望结果的距离(用户必须提前定义),
d
(
x
,
x
′
)
d(x,{x}')
d(x,x′)代表解释实例和反事实实例之间的距离,对于给定的
λ
\lambda
λ,求解出
x
′
{x}'
x′,其中如果
λ
\lambda
λ越大,表示我们更偏向生成的预测结果偏向
y
′
{y}'
y′的反事实,反之,我们更偏向于生成基于和要解释的实例靠近的反事实。
论文作者建议不要选择
λ
\lambda
λ的值而是选择允许反事实预测和
y
′
{y}'
y′的距离的公差
ϵ
\epsilon
ϵ
∣
f
^
(
x
′
)
−
y
′
)
∣
⩽
ϵ
\left |\hat f({x}')-{y}')\right|\leqslant\epsilon
∣∣∣f^(x′)−y′)∣∣∣⩽ϵ
必须预先设置实例 x,所需的输出 y′和公差参数 ϵ。对于 x′,损失函数最小化,并且增⼤ λ 找到 (局部) 最佳反事实 x′,直到找到足够接近的解 (= 公差参数内)。
总距离是所有 p 个特征距离的总和,即实例 x 和反事实 x′ 之间的特征值的绝对差。特征距离通过特征 j 在数据集上的绝对中位差的倒数来缩放:
产生反事实的方法
- 选择要解释的实例 x x x 所需的结果 y ′ {y}' y′ 公差 ϵ \epsilon ϵ 和低的 λ \lambda λ初始值
- 采样一个随机的实例作为反事实
- 以初始采样的反事实为出发点,对损失进行优化
- 直到
∣
f
^
(
x
′
)
−
y
′
)
∣
>
ϵ
\left |\hat f({x}')-{y}')\right|>\epsilon
∣∣∣f^(x′)−y′)∣∣∣>ϵ
增加 λ \lambda λ以当前反事实为出发点优化损失,返回损失最小化的反事实 - 重复2-4返回反事实列表
反事实解释的优点
- 反事实解释很清晰,如果实例的特征值根据反事实修改而修改,那么预测结果也会更改为预定义的预测结果
- 反事实方法不需要访问数据和模型,只需要访问模型的预测参数
- 相对容易实现
反事实解释的缺点
- “罗生门效应”:即通常会找到多个反事实解释,但是又可能无法权衡哪个解释比较好
- 对于给定的公差 ϵ \epsilon ϵ可能找不到符合的反事实
- 不能很好的处理有很多不同层次类别的数据(因为计算量很大)
对抗样本
对抗样本和反事实很类似,但是对抗样本对实例某些特征进行微小扰动之后,而使得模型做出错误预测
原型和批评
⼀个原型是⼀个数据实例,它是所有数据的代表。⼀个批评是不能由⼀组原型很好地代表的⼀个数据实例。批评的目的是与原型⼀起提供见解,尤其是对于原型不能很好代表的数据点。原型和批(Prototypes and Criticisms) 可以 (与机器学习) 模型无关地用于描述数据,但是它们也可以⽤于创建可解释的模型或使⿊盒模型可解释。
原型:原型来自于实例,是实例中簇中心点
批评:批评同样来自于实例,是没有原型的簇中的点
MMD-critic 将原型和批评进行结合的一种框架
有影响力的实例
机器学习模型是数据的产物,如果删除其中的一个训练实例会对模型产生影响,就称这个实例为有影响力的实例
识别影响力实例的方法:
- 删除诊断:删除某个实例来重新计算平均值,反应出删除实例对整体的影响
- 影响函数:通过无限小权重来增加其中一个权重
异常值(离群点):被视作异常值,但也是有影响力的实例
删除诊断需要重新训练模型n次,这是不可取的,因为如果当数据量很大的情况下,重新训练需要很长很长的时间
影响函数
影响函数背后的关键思想是通过⽆限小的步幅 (ϵ) 对某个训练实例的损失加权,从而产⽣新的模型参数:
其中
θ
\theta
θ是模型参数向量而
θ
^
ϵ
,
z
\hat\theta_{\epsilon,z}
θ^ϵ,z是用非常小的数字
ϵ
\epsilon
ϵ对
z
z
z进行加权后的参数向量,
L
L
L是模型损失函数,
z
i
z_i
zi是训练数据,
z
z
z是我们增加权重想要来模拟其移除的训练实例。
对训练实例 z 加权对参数的影响力,可计算如下。
五、可解释性的未来
- 重点放在与模型无关的可解释性工具上
- 机器学习将是自动化的,并且具有可解释性
- 重点不是分析数据,而是分析模型