这是解释机器学习模型输出的终极指南
更多机器学习系列请看:芯媒机器学习系列文章和资料
许多人都认为机器学习模型的输出是莫名其妙的,模型预测或决策可能是可靠的,但你无法知道模型是根据什么做出的决策。
这对于调试、为未来的数据工程提供信息、更好地指导未来的数据收集、为人类决策提供信息以及建立与业务利益相关者和非技术背景人员沟通的信任很有价值。
1.调试
调试是数据科学中最有价值的技能之一。了解模型发现的模式将有助于确定您对现实世界了解的可能性,这通常是追踪错误的第一步。错误的来源可能是不可靠的、杂乱无章的数据,并且通常是脏数据。除此之外,潜在的噪声是由数据预处理步骤引起的。
2.通知特征工程
特征工程是提高模型性能的最有效方法之一。特征工程涉及特征转换,创建原始特征的新特征。了解模型的工作方式可以更好地改进特征工程,从而提高模型性能。
3.指导未来的数据收集
基于模型的洞察力使您能够很好地了解您当前拥有的功能的价值,这将帮助您推断哪些新价值可能最有帮助。这可以帮助指导未来的数据收集,以提高模型性能。
4.为人类决策提供信息
一些决策是由模型自动做出的。然而,许多重要的决定都是由人类做出的。这些决定、洞察力可能比预测更有价值。
5.建立信任
许多人不会认为他们可以在不验证一些基本事实的情况下信任您的模型来做出重要决策。考虑到数据错误的频率,这是一个明智的预防措施。在实践中,展示符合他们对问题的一般理解的见解将有助于建立信任,即使在对数据科学知之甚少的人或没有技术背景的人之间也是如此。
在本文中,介绍了四种机器学习可扩展性的方法。这些方法是排列重要性、部分图、SHAP 值和 LIME 值。我们将使用汽车数据集来解释这些方法。
数据加载和预处理可以在这个notebook中找到。为简短起见,此处不再赘述。
数据的连续数值特征为:
-
长度
-
宽度
-
整备重量
-
引擎尺寸
-
马力
-
城市-mpg
-
高速公路-mpg
-
轴距
-
孔
</