MLK | 如何解决机器学习树集成模型的解释性问题

最新推荐文章于 2024-04-16 20:36:06 发布

Pysamlam

最新推荐文章于 2024-04-16 20:36:06 发布

阅读量790

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pysamlam/article/details/100978621

版权

本文探讨了机器学习模型特别是树集成模型解释性的问题，分析了模型不可解释的原因，并重点介绍了特征重要度方法。文章进一步引出SHAP（SHapley Additive exPlanations）作为可能的解决方案，详细解释了SHAP的概念，并通过实际案例展示了如何使用SHAP对树集成模型进行解释性分析。

摘要由CSDN通过智能技术生成

640?wx_fmt=png

MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，这篇文章主要是结合前几天看到的一个问题，然后结合自己的理解来写的。

? 前情回顾

? Index

机器学习模型不可解释的原因
特征重要度方法盘点
SHAP可能是出路，SHAP到底是什么
SHAP的案例展示

01 机器学习模型不可解释的原因

前些天在同行交流群里，有个话题一直在群里热烈地讨论，那就是 如何解释机器学习模型 ，因为在风控领域，一个模型如果不能得到很好的解释一般都不会被通过的，在银行里会特别的常见，所以大多数同行都是会用 LR 来建模。但是，机器学习的模型算法这么多，不用岂不是很浪费？而且有些算法还十分好用的，至少在效果上，如XGBoost、GBDT、Adaboost。

640?wx_fmt=png

图：群里小伙伴的讨论截图

那么，有同学就会问了，为什么这些算法会没有解释性呢？其实是这样子的，刚刚所说的那些模型都是一些集成模型，都是由复杂的树结构去组成的模型，对于人类来说我们很难直观地去解释为什么这个客户就是烂，到底是什么特征导致他烂？

02 特征重要度方法盘点

其实像XGBoost之类的模型还算是有解释性的了，我们常常都会看到有人用信息增益、节点分裂数来衡量特征的重要度，但是这真的是合理的吗？

在解释是否合理前，有2个概念需要先给大家普及一下：

1）一致性

指的是一个模型的特征重要度，不会因为我们更改了某个特征，而改变其重要度。比如A模型的特征X1的重要度是10，那么如果我们在模型里给特征X2加些权重以增大其重要度，重新计算重要度后，特征X1的重要度仍是10。不一致性可能会导致具有重要度较大的特征比具有重要度较小的特征更不重要。

2）个体化

指的是重要度的计算是可以针对个体，而不需要整个数据集一起计算。

好

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
MLK | 如何解决机器学习树集成模型的解释性问题

MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，这篇文章主要是结合前几天看到的一个问题，然后结合自...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。