干货|全面介绍微软开源可解释机器学习框架InterpretML

点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送

转自:机器之心

起初,机器于黑暗之中学习,为解释它们,数据科学家于虚空之中挣扎。
然后,要有光。

微软在可解释机器学习项目 InterpretML 的 GitHub 页面上这样写到。很显然,他们相信 InterpretML 会是打开机器学习黑箱的钥匙。

在机器学习领域,可解释性(interpretability)至少在以下几个方面至关重要:
  • 调试模型——为什么我的模型会这样出错?

  • 检测偏见——我的模型会区别对待目标吗?

  • 人与人工智能合作——我怎样才能理解和信任模型的决策?

  • 合规性——我的模型符合法律规定吗?

  • 高风险应用——医疗保健、金融、司法……

过去,最好理解的模型往往非常不准,而最准确的模型又无法被我们理解。微软研究院之前已经开发了一个名为「可解释 Boosting 机(EBM:Explainable Boosting Machine)」的算法,可以在实现高准确度的同时具备可理解性。EBM 通过 bagging 和 boosting 等现代机器学习技术为传统的 GAM(广义可加模型)注入了新生命。这使得它们能像随机森林和梯度提升树一样准确,同时其可理解性和可编辑性也得到了增强。
现在,微软研究院更进一步,在 EBM 的基础上扩展并开源了一个用于机器学习可解释性的统一框架 InterpretML,该框架基于 Python,可用于训练可解释模型和解释黑箱系统。
论文地址:https://arxiv.org/abs/1909.09223v1
开源代码:https://github.com/microsoft/interpret


InterpretML 是一个为实践者和研究者提供机器学习可解释性算法的开源 Python 软件包。InterpretML 能提供两种类型的可解释性:(1)明箱(glassbox),这是针对可解释性设计的机器学习模型(比如线性模型、规则列表、广义加性模型);(2)黑箱(blackbox)可解释技术,用于解释已有的系统(比如部分依赖、LIME)。这个软件包可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机(EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确。
InterpretML 是什么?
随着机器学习日益成熟,应用愈渐广泛,构建能让用户理解的模型也正变得越来越重要。在医疗、金融和司法等高风险应用中,这一点尤其显著。可解释性在模型调试、合规性和人机交互等一般应用的机器学习问题方面也很重要。
InterpretML 正是为解决这些需求而生的,其将很多当前最先进的可解释性算法纳入到了一个统一的 API 下。这个 API 包含两种主要的可解释性形式:明箱模型,即让用户能够理解以及向用户解释;黑箱可解释性,即能为任何机器学习流程(不管多么不透明)生成解释的方法。其还开发了进一步的功能,支持交互式可视化,还有一个为可解释性算法比较而设计的内置仪表盘。InterpretML 使用了 MIT 许可,并重点关注可扩展性以及与 scikit-learn 和 Jupyter Notebook 环境等常见开源项目的兼容性。
软件包的设计
InterpretML 的架构和 API 设计遵循四个关键设计原则。
易于比较。 使多个算法的比较尽可能地容易。机器学习可解释性还处于发展早期,不同的研究创造了很多不同的算法方法,每一种都各有优劣。比较能让用户找到最适合自身需求的算法。InterpretML 实现了这一点,其做法是采用了一种 scikit-learn 风格的统一 API,另外其还提供了一个以算法比较为中心的可视化平台。
忠于来源。 尽可能地使用参照算法和可视化。InterpretML 的目标是以最准确的形式为世界提供可解释性算法。
能与其它方法很好协同。 利用开源生态系统,不重复发明轮子。InterpretML 与 Jupyter Notebook 和 scikit-learn 等常用项目高度兼容,并且其构建过程也使用了很多库,比如 plotly、lime、shap 和 SALib。
按需使用。能使用和扩展 InterpretML 的任意组件,而无需引入整个框架。比如可以在服务器上得到计算密集型的解释,无需 InterpretML 的可视化及其它相关依赖。
图 1 展示了 InterpretML 的代码架构和统一 API,其中提供了整体的概况以及相关的代码示例。

 

图 1: API 架构和代码示例
可解释 Boosting 机
InterpretML 框架还包含一种新的可解释算法——可解释 Boosting 机(EBM)。
相关论文:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/KDD2015FinalDraftIntelligibleModels4HealthCare_igt143e-caruanaA.pdf
EBM 是一种明箱模型,是为与随机森林和提升树等当前最佳机器学习方法比较准确度而设计的。EBM 是一种广义加性模型(GAM),其形式为:

 

其中 g 是将 GAM 适配于回归或分类等不同设置的链接函数。EBM 相比于传统 GAM(Hastie and Tibshirani, 1987)有几项重大改进。第一,EBM 使用 bagging 和梯度提升等现代机器学习技术来学习每个特征函数 f_j。boosting 流程使用非常低的学习率以轮询方式非常慎重地限定为一次训练一个特征,这样特征顺序就不重要了。它在特征中轮询循环,以减缓共线性的影响以及学习每个特征的最佳特征函数 f_j,从而展示每个特征对模型的预测的贡献量。第二,EBM 可以按以下形式自动检测和囊括成对的交互项:
 
这能在维持可理解性的同时进一步提升准确度。EBM 是 GA²M 算法(Lou et al., 2013)的一种快速实现,使用 C++ 和 Python 写成。这个实现是可并行的,并利用了 joblib 来提供多核和多机并行。该算法在训练流程和成对交互项选择方面的细节以及案例研究请见(Lou et al., 2012, 2013; Caruana et al., 2015)。
EBM 是高度可理解的,因为每个特征对最终预测的贡献都可以通过绘制 f_j 的图来可视化和理解。因为 EBM 是一种加性模型,所以每个特征对预测的贡献都是模块化的,因此可以很简单地推理每个特征对预测的贡献。

图 2: 左: 函数 f_Age。 随着 Age 从 20 增长到 50,p(1) 增长显著。 右: 单个预测,其中 CapitalGain 特征占主导地位。
为了进行单个预测,每个函数 f_j 都可作为每个特征的查找表,可返回项贡献。只需要简单地将这些项贡献加起来,然后通过链接函数 g 来计算最终预测。因为模块化的特性(加性),可以对项贡献进行分类和可视化,从而可展现哪些特征对任意的单个预测的影响最大。

表 3: 不同模型在不同数据集上的分类性能(行,列)

图 4: 不同模型在不同数据集上的计算性能(行,列)
就预测能力而言,EBM 的表现常常出奇地好,而且能与随机森林和 XGBoost 等当前最佳方法媲美。为了保证各个项的加性,EBM 要付出额外的训练成本,因此会比表现相近的其它方法慢一些。但是,由于预测仅涉及到在特征函数 f_j 中进行查找和简单的加法,所以 EBM 在预测时是执行最快速的模型之一。EBM 的轻量级内存使用和快速预测时间使其尤其适合模型的生产部署。

推荐阅读

干货|学术论文怎么写

资源|NLP书籍及课程推荐(附资料下载)

干货|全面理解N-Gram语言模型

资源|《Machine Learning for OpenCV》书籍推荐

欢迎关注我们,看通俗干货

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值