SHAP(Shapley Additive exPlanations)和IV值(Information Value,信息价值)都是机器学习中用于评估特征对结果贡献的指标,但它们在原理、特点和应用场景等方面存在一些区别
一、IV值
1、IV值的定义
信息价值(Information Value, IV) 是衡量特征对二分类目标变量(如好坏样本)区分能力的指标。其核心逻辑是:通过分箱处理特征后,计算每个分箱的证据权重(Weight of Evidence, WOE),并加权求和得到IV值。
计算公式:
I
V
=
∑
i
=
1
k
(
Good
i
Good
All
−
Bad
i
Bad
All
)
×
ln
(
Good
i
/
Good
All
Bad
i
/
Bad
All
)
IV = \sum_{i=1}^{k} \left( \frac{\text{Good}_i}{\text{Good}_{\text{All}}} - \frac{\text{Bad}_i}{\text{Bad}_{\text{All}}} \right) \times \ln\left( \frac{\text{Good}_i / \text{Good}_{\text{All}}}{\text{Bad}_i / \text{Bad}_{\text{All}}} \right)
IV=i=1∑k(GoodAllGoodi−BadAllBadi)×ln(Badi/BadAllGoodi/GoodAll)
- 关键参数:
- Good i \text{Good}_i Goodi:第 i i i 个分箱中的正样本数;
- Bad i \text{Bad}_i Badi:第 i i i 个分箱中的负样本数;
- Good All \text{Good}_{\text{All}} GoodAll、 Bad All \text{Bad}_{\text{All}} BadAll:全样本中的正、负样本总数;
- ln ( Good i / Good All Bad i / Bad All ) \ln\left( \frac{\text{Good}_i / \text{Good}_{\text{All}}}{\text{Bad}_i / \text{Bad}_{\text{All}}} \right) ln(Badi/BadAllGoodi/GoodAll):分箱 i i i 的WOE值,表示该分箱对目标变量的区分程度。
IV值解读:
- IV值越大:特征区分能力越强,对结果贡献越大;
- IV值越小:特征区分能力越弱,对结果贡献越小。
经验参考范围:
- 0 < I V < 0.02 0 < IV < 0.02 0<IV<0.02:几乎无区分度;
- 0.02 ∼ 0.1 0.02 \sim 0.1 0.02∼0.1:弱到中等区分度;
- 0.1 ∼ 0.3 0.1 \sim 0.3 0.1∼0.3:中等到强区分度;
- 0.3 ∼ 0.5 0.3 \sim 0.5 0.3∼0.5:较强区分度;
- ≥ 0.5 ≥ 0.5 ≥0.5:极强区分度(需警惕数据泄露或强相关性)。
2、IV值的使用方式
-
特征筛选
- 操作:计算所有特征的IV值,剔除IV值过低(如 I V < 0.02 IV < 0.02 IV<0.02)的特征。
- 场景:建模前减少冗余特征,提升模型效率。
- 示例:在信用评分模型中,若“教育程度”的IV值为0.01,可认为该特征对违约预测无显著作用。
-
监控特征稳定性
- 操作:定期(如每月)重新计算特征的IV值,观察其变化趋势。
- 场景:模型上线后,若IV值显著下降(如从0.2降至0.05),说明特征在当前业务环境下的区分能力减弱,需重新评估或调整分箱。
- 示例:经济政策变化可能导致“收入水平”的IV值下降,需检查分箱是否合理。
-
优化分箱策略
- 操作:根据分箱的WOE和IV值调整分箱边界。
- 策略:
- 合并WOE波动大或对IV贡献低的相邻分箱;
- 确保分箱的单调性(如WOE随分箱值递增或递减)。
- 示例:若年龄分箱中“25-30岁”和“31-35岁”的WOE差异过大,可合并为“25-35岁”以提升IV值。
-
结合业务逻辑验证
- 操作:将IV值与业务经验结合,避免过度依赖数据。
- 示例:若“用户点击次数”的IV值很高,但业务上认为该特征不合理,需检查分箱是否存在偏差或数据异常。
3、IV值特点
- 分箱方法影响IV值:等频分箱、等距分箱或基于模型的分箱(如卡方分箱)会导致不同的IV值结果。
- IV值仅适用于二分类任务:无法直接用于回归或多分类问题。
- 高IV值需谨慎:若某特征IV值极高(如 I V ≥ 0.5 IV ≥ 0.5 IV≥0.5),需排查是否因数据泄露(如包含目标变量信息)或极端分箱导致。
通过合理使用IV值,可高效筛选特征、优化分箱策略,并监控模型的稳定性,尤其在金融风控、客户分群等领域具有重要应用价值。
二、SHAP值
SHAP(SHapley Additive exPlanations)是一种用于解释机器学习模型预测结果的方法,它基于合作博弈论中的Shapley值理论。在机器学习场景下,将每个特征看作一个参与者,模型的预测结果看作总收益,通过将预测结果分解为每个特征的影响,为模型提供全局和局部的可解释性,衡量每个特征对模型预测结果的贡献大小。
(一)核心公式与原理
SHAP值(Shapley Additive exPlanations)基于博弈论中的 Shapley值,其核心思想是:每个特征的贡献等于它在所有可能的特征组合中对模型预测值的平均边际贡献。
对于一个包含
n
n
n个特征的模型,某个特征
i
i
i的SHAP值
ϕ
i
\phi_i
ϕi的数学定义为:
ϕ
i
=
∑
S
⊆
F
∖
{
i
}
∣
S
∣
!
(
n
−
∣
S
∣
−
1
)
!
n
!
[
f
(
S
∪
{
i
}
)
−
f
(
S
)
]
\phi_i = \sum_{S \subseteq \mathcal{F} \setminus \{i\}} \frac{|S|! (n - |S| - 1)!}{n!} \left[ f(S \cup \{i\}) - f(S) \right]
ϕi=S⊆F∖{i}∑n!∣S∣!(n−∣S∣−1)![f(S∪{i})−f(S)]
-
关键参数:
- S S S:包含部分特征的子集(不包含特征 i i i);
- f ( S ) f(S) f(S):仅使用特征子集 S S S时的模型预测值;
- ∣ S ∣ ! ( n − ∣ S ∣ − 1 ) ! n ! \frac{|S|! (n - |S| - 1)!}{n!} n!∣S∣!(n−∣S∣−1)!:权重系数,表示子集 S S S的出现概率。- 当应用于具体样本时,通过
f
(
S
,
x
)
f(S, x)
f(S,x)隐式引入样本信息,即:对于样本
x
x
x,特征
i
i
i的局部 SHAP 值为:
ϕ i ( x ) = ∑ S ⊆ F ∖ { i } ∣ S ∣ ! ( n − ∣ S ∣ − 1 ) ! n ! [ f ( S ∪ { i } , x ) − f ( S , x ) ] \phi_i^{(x)} = \sum_{S \subseteq F \setminus \{i\}} \frac{|S|!(n-|S|-1)!}{n!} \left[ f(S \cup \{i\}, x) - f(S, x) \right] ϕi(x)=S⊆F∖{i}∑n!∣S∣!(n−∣S∣−1)![f(S∪{i},x)−f(S,x)] - 这里的 f ( S ∪ { i } , x ) f(S \cup \{i\}, x) f(S∪{i},x)和 f ( S , x ) f(S, x) f(S,x)均基于样本 x x x的特征值计算。
- 当应用于具体样本时,通过
f
(
S
,
x
)
f(S, x)
f(S,x)隐式引入样本信息,即:对于样本
x
x
x,特征
i
i
i的局部 SHAP 值为:
核心性质:
- 全局一致性:所有特征的SHAP值之和等于模型预测值与基线值(如均值)的差异。
- 局部解释性:对每个样本,SHAP值解释该样本中各特征对预测结果的贡献。
(二)简化计算方法
直接计算所有特征组合的复杂度为 O ( 2 n ) O(2^n) O(2n),实际中通常采用以下近似方法:
-
TreeSHAP(适用于树模型)
- 算法:基于树结构的递归分解,利用叶节点的预测值和路径信息快速计算SHAP值。
- 公式:
ϕ i = ∑ j = 1 m 1 n j ( v j − ∑ k ∈ children ( j ) n k n j v k ) \phi_i = \sum_{j=1}^{m} \frac{1}{n_j} \left( v_{j} - \sum_{k \in \text{children}(j)} \frac{n_k}{n_j} v_k \right) ϕi=j=1∑mnj1 vj−k∈children(j)∑njnkvk
其中 v j v_j vj是节点 j j j的预测值, n j n_j nj是该节点的样本数。
-
KernelSHAP(通用模型)
- 算法:通过核函数加权的线性回归近似SHAP值,权重与特征子集的稀疏性相关。
- 公式:
ϕ i = ∑ S ⊆ F π ( S ) [ f ( S ∪ { i } ) − f ( S ) ] \phi_i = \sum_{S \subseteq \mathcal{F}} \pi(S) \left[ f(S \cup \{i\}) - f(S) \right] ϕi=S⊆F∑π(S)[f(S∪{i})−f(S)]
其中 π ( S ) \pi(S) π(S)是核权重(如K-L散度权重)。
(三)局部 SHAP 值与全局 SHAP 值的区别
维度 | 局部 SHAP 值(单个样本) | 全局 SHAP 值(整体数据集) |
---|---|---|
公式输入 | 固定样本 x x x的特征值,计算 f ( S ∪ { i } , x ) f(S \cup \{i\}, x) f(S∪{i},x) | 遍历所有样本,计算 f ( S ∪ { i } ) f(S \cup \{i\}) f(S∪{i})的期望值 |
输出意义 | 解释样本 x x x中特征 i i i的个性化贡献 | 总结特征 i i i在全体样本中的平均重要性 |
示例 | 样本 x x x的收入特征贡献 +20 分(影响其预测结果) | 收入特征的全局 SHAP 值为 +15 分(平均贡献) |
假设我们有一个预测房价的模型,特征包括面积(平方米)、房龄(年)、楼层(层)。
-
局部 SHAP 值
- 某套房子面积 100 ㎡,房龄 5 年,楼层 10 层,预测价格为 200 万元。
- SHAP 值计算显示:
- 面积贡献 +80 万元(该样本中面积大推高房价)。
- 房龄贡献 -20 万元(该样本中房龄较短拉低房价)。
- 楼层贡献 +40 万元(该样本中楼层适中提升房价)。
- 公式应用:固定该样本的特征值,计算每个特征在不同子集 S S S中的边际贡献。
-
全局 SHAP值
- 所有样本的面积特征 SHAP 值平均为 +50 万元(整体上面积对房价的正向影响)。
- 房龄的平均 SHAP 值为 -15 万元(整体上房龄对房价的负向影响)。
- 公式应用:对所有样本的局部 SHAP 值取平均值。
(四)计算示例
全局
假设一个简单线性回归模型:
y
=
2
x
1
+
3
x
2
+
4
x
3
+
截距
y = 2x_1 + 3x_2 + 4x_3 + \text{截距}
y=2x1+3x2+4x3+截距
基线值(均值)为
μ
=
5
\mu = 5
μ=5,预测值为
y
=
2
x
1
+
3
x
2
+
4
x
3
+
5
y = 2x_1 + 3x_2 + 4x_3 + 5
y=2x1+3x2+4x3+5。
计算特征 x 1 x_1 x1的SHAP值:
- 遍历所有包含
x
1
x_1
x1的子集:
- S 1 = { x 1 } S_1 = \{x_1\} S1={x1}:贡献为 2 x 1 2x_1 2x1。
- S 2 = { x 1 , x 2 } S_2 = \{x_1, x_2\} S2={x1,x2}:贡献为 2 x 1 + 3 x 2 − 3 x 2 = 2 x 1 2x_1 + 3x_2 - 3x_2 = 2x_1 2x1+3x2−3x2=2x1。
- S 3 = { x 1 , x 3 } S_3 = \{x_1, x_3\} S3={x1,x3}:贡献为 2 x 1 + 4 x 3 − 4 x 3 = 2 x 1 2x_1 + 4x_3 - 4x_3 = 2x_1 2x1+4x3−4x3=2x1。
- S 4 = { x 1 , x 2 , x 3 } S_4 = \{x_1, x_2, x_3\} S4={x1,x2,x3}:贡献为 2 x 1 + 3 x 2 + 4 x 3 − ( 3 x 2 + 4 x 3 ) = 2 x 1 2x_1 + 3x_2 + 4x_3 - (3x_2 + 4x_3) = 2x_1 2x1+3x2+4x3−(3x2+4x3)=2x1。 - 计算平均贡献:
ϕ 1 = 1 4 ( 2 x 1 + 2 x 1 + 2 x 1 + 2 x 1 ) = 2 x 1 \phi_1 = \frac{1}{4} \left(2x_1 + 2x_1 + 2x_1 + 2x_1 \right) = 2x_1 ϕ1=41(2x1+2x1+2x1+2x1)=2x1
同理, ϕ 2 = 3 x 2 \phi_2 = 3x_2 ϕ2=3x2, ϕ 3 = 4 x 3 \phi_3 = 4x_3 ϕ3=4x3,所有SHAP值之和为 2 x 1 + 3 x 2 + 4 x 3 2x_1 + 3x_2 + 4x_3 2x1+3x2+4x3,与模型预测值减去基线值一致。
局部
假设模型预测房价时,特征包括面积( x 1 x_1 x1)、房龄( x 2 x_2 x2)、楼层( x 3 x_3 x3),样本 x = [ 100 , 5 , 10 ] x = [100, 5, 10] x=[100,5,10],基线值 f ( ∅ ) = 100 f(\emptyset) = 100 f(∅)=100万元。
-
计算特征 x 1 x_1 x1(面积)的局部 SHAP 值
- 遍历所有不包含
x
1
x_1
x1的子集
S
S
S,例如:
S = ∅ S = \emptyset S=∅:
f ( S ∪ { 1 } , x ) = 模型预测 ( 100 , 基线房龄 , 基线楼层 ) f(S \cup \{1\}, x) = \text{模型预测}(100, \text{基线房龄}, \text{基线楼层}) f(S∪{1},x)=模型预测(100,基线房龄,基线楼层)
f ( S , x ) = f ( ∅ ) = 100 f(S, x) = f(\emptyset) = 100 f(S,x)=f(∅)=100
边际贡献为 f ( S ∪ { 1 } , x ) − f ( S , x ) f(S \cup \{1\}, x) - f(S, x) f(S∪{1},x)−f(S,x)。
S = { 2 } S = \{2\} S={2}:
f ( S ∪ { 1 } , x ) = 模型预测 ( 100 , 5 , 基线楼层 ) f(S \cup \{1\}, x) = \text{模型预测}(100, 5, \text{基线楼层}) f(S∪{1},x)=模型预测(100,5,基线楼层)
f ( S , x ) = 模型预测 ( 基线面积 , 5 , 基线楼层 ) f(S, x) = \text{模型预测}(\text{基线面积}, 5, \text{基线楼层}) f(S,x)=模型预测(基线面积,5,基线楼层)
边际贡献为 f ( S ∪ { 1 } , x ) − f ( S , x ) f(S \cup \{1\}, x) - f(S, x) f(S∪{1},x)−f(S,x)。 - 对所有子集 S S S的边际贡献加权求和,得到 ϕ 1 ( x ) \phi_1^{(x)} ϕ1(x)。
- 遍历所有不包含
x
1
x_1
x1的子集
S
S
S,例如:
-
结果解读
- 若 ϕ 1 ( x ) = + 80 \phi_1^{(x)} = +80 ϕ1(x)=+80万元,说明在样本 x x x中,面积特征的边际贡献为 +80 万元(相对于基线值)。
(五)工具与实现
- Python库:
shap
:支持TreeSHAP、KernelSHAP等算法,提供丰富的可视化(如摘要图、依赖图)。lightgbm
:内置SHAP值计算功能(需设置feature_importance_type='shap'
)。
- 代码示例:
import shap from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(X_train, y_train) explainer = shap.TreeExplainer(model) shap_values = explainer.shap_values(X_test) shap.summary_plot(shap_values, X_test) # 可视化特征重要性
通过SHAP值,不仅能量化特征对模型的全局贡献,还能深入理解每个样本的预测逻辑,尤其适用于复杂模型的可解释性分析。
SHAP值的计算方法分为精确计算和近似计算:
- 精确计算:考虑所有可能的特征子集,计算有无某个特征时的预测差异,将这些差异加权平均得到该特征的SHAP值。但随着特征数量增加,计算复杂度呈指数级增长。
- 近似计算:常用的近似算法,如Tree SHAP(针对树模型,利用树结构避免对所有特征子集的枚举,在对数时间复杂度内计算)、Kernel SHAP(通用算法,通过采样特征子集并分配权重来近似计算) 。
在实际中使用SHAP的步骤如下:
- 训练模型:使用准备好的数据集训练机器学习模型,如LightGBM、XGBoost等。
- 计算SHAP值:使用SHAP库计算每个特征的SHAP值。比如对于训练好的XGBoost模型,使用
shap.Explainer(model)
初始化解释器,再通过explainer(X_train)
计算SHAP值(X_train
是训练数据)。 - 可视化与解释:通过可视化方法展示SHAP值来理解模型。常见的可视化图表有:
- 摘要图(Summary Plot):展示所有特征的整体重要性分布。
- 依赖图(Dependence Plot):呈现单个特征与SHAP值之间的关系。
- 力图(Force Plot):展示单个样本的SHAP值及其对模型预测结果的影响。
- 决策图(Decision Plot):展示特征如何影响从基准值到最终预测的过程。
- 瀑布图(Waterfall Plot):展示单个样本的SHAP值,直观呈现各特征对预测结果的影响 。
三、IV值与SHAP值比较
SHAP(Shapley Additive exPlanations)和IV值(Information Value,信息价值)都是机器学习中
用于评估特征对结果贡献的指标,但它们在原理、特点和应用场景等方面存在一些区别:
相同点
- 评估目的:二者都用于衡量特征对模型结果的重要程度,帮助筛选有价值的特征,提升模型性能和可解释性。
- 应用场景:在金融风控、数据分析等领域都有应用,比如金融风控中评估客户相关特征对违约预测的作用。
不同点
- 原理:
- SHAP:基于博弈论中的Shapley值理论,将模型预测值分解为每个特征的贡献,使所有特征的SHAP值之和等于模型预测值与基线值(通常是所有样本目标变量的均值)的差异。
- IV值:通过计算每个分箱的证据权重(WOE)并加权求和得到。WOE衡量了每个分箱中好坏样本分布与整体好坏样本分布的差异,反映特征对二分类目标变量的区分能力。
- 评估角度:
- SHAP:不仅能衡量特征的重要性,还能判断特征对单个样本预测结果的贡献方向(SHAP值为正表示正向贡献,为负表示负向贡献),提供局部解释。
- IV值:侧重于从全局角度评估单个特征对目标变量的预测能力,衡量的是特征单独区分好坏样本的能力,不涉及特征与单个样本预测结果的正负关系。
- 模型适应性:
- SHAP:适用于任何机器学习模型,无论是线性模型、树模型还是神经网络等复杂的黑箱模型。
- IV值:主要适用于有监督的二分类任务,尤其是逻辑回归模型,在其他模型中的应用相对较少 。
- 计算复杂度:
- SHAP:精确计算时,随着特征数量增加,计算复杂度呈指数级增长,因此常采用近似计算方法。
- IV值:计算相对简单,只需对分箱后的数据进行基于WOE的计算和求和。
- 可视化:
- SHAP:提供丰富的可视化方式,如摘要图、依赖图、力图、瀑布图、决策图等,便于从不同角度理解特征对预测结果的影响。
- IV值:通常只是根据计算出的数值大小进行排序展示,可视化形式较为单一。
在实际应用中,通常可以先用IV值对特征进行初步筛选,去除预测能力低的特征;再用SHAP值对模型进行深入的解释分析,了解特征在模型中的具体作用和影响。
四、其它指标
在机器学习中,除了 SHAP 值,还有以下常用指标衡量特征对结果的贡献:
1. 基于树模型的特征重要性(Tree-based Feature Importance)
- 原理:树模型(如随机森林、XGBoost、LightGBM)通过特征在树中分裂时的贡献计算重要性。
- Gini 重要性:基于分类树中特征分裂时 Gini 指数的减少量,减少越多,特征越重要。
- 信息增益/增益比:回归树中常用特征分裂带来的均方误差(MSE)减少量,或信息增益、增益比(如 LightGBM 的
gain
或split
重要性)。
- 应用:直接调用树模型库的属性(如
model.feature_importances_
),快速获取全局特征重要性排序。
2. 排列重要性(Permutation Importance)
- 原理:随机打乱某一特征的取值,观察模型性能(如准确率、均方误差)的下降幅度。下降越多,特征对模型越重要。
- 优势:适用于任意模型(树模型、线性模型、神经网络等),克服树模型固有偏差(如高基数特征易被高估重要性)。
- 实现:通过工具库(如 Scikit-learn 的
permutation_importance
)计算。
3. 线性模型系数(Coefficients in Linear Models)
- 原理:在线性回归、逻辑回归等模型中,特征系数的绝对值反映其对目标变量的影响程度。标准化数据后,系数可直接对比贡献大小。
- 注意:需确保模型假设成立(如线性关系),且特征间无强共线性,否则系数解释性会受影响。
4. 部分依赖重要性(Partial Dependence Importance)
- 原理:结合部分依赖图(PDI),通过计算特征对模型预测结果的平均影响幅度衡量重要性。本质是观察特征在不同取值下,模型预测的变化程度。
- 应用:分析特征与目标变量的非线性关系,同时评估特征对模型的全局贡献。
5. 基于注意力机制的权重(Attention Weights)
- 原理:在深度学习模型(如 Transformer)中,注意力机制直接输出特征/输入位置的权重,权重越高,特征对结果的贡献越大。
- 场景:自然语言处理、图像识别等任务中,解释模型对输入序列/区域的关注重点。
这些指标各有侧重,树模型重要性适合快速分析,排列重要性通用性强,线性模型系数直观,可根据模型类型和分析目标选择合适方法。