解开机器学习模型黑盒的 4 种方法(终极指南)

这是解释机器学习模型输出的终极指南

更多机器学习系列请看:芯媒机器学习系列文章和资料

许多人都认为机器学习模型的输出是莫名其妙的,模型预测或决策可能是可靠的,但你无法知道模型是根据什么做出的决策。

这对于调试、为未来的数据工程提供信息、更好地指导未来的数据收集、为人类决策提供信息以及建立与业务利益相关者和非技术背景人员沟通的信任很有价值。

1.调试

调试是数据科学中最有价值的技能之一。了解模型发现的模式将有助于确定您对现实世界了解的可能性,这通常是追踪错误的第一步。错误的来源可能是不可靠的、杂乱无章的数据,并且通常是脏数据。除此之外,潜在的噪声是由数据预处理步骤引起的。

2.通知特征工程

特征工程是提高模型性能的最有效方法之一。特征工程涉及特征转换,创建原始特征的新特征。了解模型的工作方式可以更好地改进特征工程,从而提高模型性能。

3.指导未来的数据收集

基于模型的洞察力使您能够很好地了解您当前拥有的功能的价值,这将帮助您推断哪些新价值可能最有帮助。这可以帮助指导未来的数据收集,以提高模型性能。

4.为人类决策提供信息

一些决策是由模型自动做出的。然而,许多重要的决定都是由人类做出的。这些决定、洞察力可能比预测更有价值。

5.建立信任

许多人不会认为他们可以在不验证一些基本事实的情况下信任您的模型来做出重要决策。考虑到数据错误的频率,这是一个明智的预防措施。在实践中,展示符合他们对问题的一般理解的见解将有助于建立信任,即使在对数据科学知之甚少的人或没有技术背景的人之间也是如此。

在本文中,介绍了四种机器学习可扩展性的方法。这些方法是排列重要性、部分图、SHAP 值和 LIME 值。我们将使用汽车数据集来解释这些方法。

数据加载和预处理可以在这个notebook中找到。为简短起见,此处不再赘述。

数据的连续数值特征为:

  • 长度

  • 宽度

  • 整备重量

  • 引擎尺寸

  • 马力

  • 城市-mpg

  • 高速公路-mpg

  • 轴距

  • </
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值