AutoML-前言

前言

我们应该尝试在整个机器学习和数据分析管道的所有方面实现自动化,包括自动化数据收集和实验设计;自动化数据清洗和丢失数据填补;自动化特征选择和转化;自动化模型的发现、评判和解释;自动化分配计算资源;自动化超参数调优;自动推断;以及自动化模型监督和异常检测。

本书包括我们需要在 AutoML 中使用基本技术的最新概览 (超参数优化、元学习和神经架构选择),提供了对现存 AutoML 系统的深入讨论,以及细致的评估了自 2015 年起的一系列比赛中 AutoML 的最新进展。

序言

在过去的十年中,机器学习研究和应用激增,特别是深度学习方法已经在许多应用领域取得了重要进展,例如计算机视觉,语音处理和游戏。然而,许多机器学习方法的性能对众多设计决策非常敏感,这给新用户构成了相当大的障碍 。 在蓬勃发展的深度学习领域中尤其如此,人类工程师需要为所有这些组件选择正确的神经网络结构,训练程序,正则化方法和超参数,以使他们的网络以足够的性能执行应做的工作。对于每个应用程序都必须重复此过程,甚至专家们也常常会经历乏味的反复试验,直到他们为特定的数据集确定了一套不错的选择。

自动化机器学习(AutoML)领域旨在以数据驱动,客观和自动化的方式做出这些决策:用户只需提供数据,而 AutoML 系统会自动确定对该特定应用程序执行效果最佳的方法。 因此,AutoML 使有兴趣应用机器学习但没有资源详细了解其背后技术的领域科学家可以使用最新的机器学习方法。 这可以看作是机器学习的 “民主化”:借助 AutoML ,定制化的最新机器学习触手可及。

正如我们在本书中所展示的,AutoML 方法已经足够成熟,甚至可以胜过人类机器学习专家。 简而言之,AutoML 可以提高性能,同时节省大量时间和金钱,因为机器学习专家既难找又昂贵。因此,近年来对 AutoML 的商业兴趣急剧增长,几家主要的高科技公司 现在我们正在开发自己的 AutoML 系统。但是,我们注意到,开源的 AutoML 系统比专有的付费黑盒服务更好地实现了使机器学习民主化的目的。

本书概述了 AutoML 快速发展的领域、由于社区当前对深度学习的关注,如今一些研究人员错误地将 AutoML 等同于神经体系结构搜索(NAS)。尽管 NAS 是 AutoML 的杰出典范,但 AutoML 的功能要远超 NAS 。本书旨在为有兴趣开发自己的 AutoML 方法的研究人员提供一些背景知识和七点,为希望将 AutoML 应用到他们的问题的从业人员提供可用的系统,并为已经在 AutoML 中工作的研究人员提供最新的技术概述。 本书在 AutoML 的这些不同方面分为三个部分。

第一部分概述了 AutoML 方法。这部分内容为新手提供了坚实的概述,并为经验丰富的 AutoML 研究人员提供了参考。

第一章讨论了超参数优化的问题,这是 AutoML 所考虑的最简单,最常见的问题。并描述了所应用的各种不同方法,尤其着眼于当前最有效的方法。

第二章展示了如何“学习学习”,即如何利用评估机器学习模型中的经验来告知如何使用新数据来处理新的学习任务。 这些技术模仿了人类从机器学习新手到专家的过渡过程,并且可以极大地减少在全新的机器学习任务上获得良好性能所需的时间。

第三章提供了 NAS 方法的全面概述。 这是 AutoML 中最具挑战性的任务之一,因为设计空间非常大,并且对神经网络的单个评估可能会花费很长时间。 然而,该领域非常活跃,并且解决 NAS 问题的新的令人兴奋的方法会定期出现。

第二部分重点介绍了即使是新手用户也可以使用的 AutoML 系统。 如果您最有兴趣将 AutoML 应用到您的机器学习问题中,那么这就是您应该开始的部分。本部分中的所有章节均对现有系统进行了评估,以提供其在实践中的性能概览。

第四章介绍了 Auto-WEKA,这是最早的 AutoML 系统之一。 它基于著名的 WEKA 机器学习工具包,并搜索不同的分类和回归方法,以及它们的超参数设置以及数据预处理方法。 只需单击一下按钮,即可通过 WEKA 的图形用户界面获得所有这些功能,而无需一行代码。

第五章概述了 Hyperopt-Sklearn,这是一种基于流行的 scikit-learn 框架的 AutoML 框架。它还包括一些有关如何使用系统的动手示例。

第六章介绍了 Auto-sklearn ,同样基于 scikit-learn 。 它采用了与 Auto-WEKA 类似的优化技术,并对当时的其他系统进行了一些改进,例如用于热启动优化和自动集成的元学习。 本章将 Auto-sklearn 的性能与前一章中的两个系统 Auto-WEKA 和 Hyper-opt-Sklearn 的性能进行了比较。 在两个不同的版本中,Auto-sklearn 是赢得本书第三部分中描述的挑战的系统。

第七章概述了 Auto-Net,这是一个用于自动化深度学习的系统,它同时对深度神经网络的体系结构和超参数做选择。Auto-Ne t的早期版本产生了第一个自动调整的神经网络,该神经网络在比赛中赢了人类专家。

第八章介绍了 TPOT 系统,该系统自动构建和优化基于树的机器学习管道。 这些管道比只考虑一组以预定义方式连接的固定机器学习组件的方法更加灵活。

第九章介绍了自动统计学家(Automatic Statistician),该系统通过生成包括数据分析、预测模型和性能比较的全自动报告来使数据科学自动化。自动统计学家的独特之处在于,它提供结果的自然语言描述,适合无专家的机器学习。

最后,第三部分和第十章概述了自 2015 年以来一直在运行的 AutoML 挑战。这些挑战的目的是促进开发在实际问题上表现良好的方法,并从提交的内容中确定最佳的总体方法。本章详细介绍了挑战及其设计背后的想法和概念,以及挑战的结果。

据我们所知,这是 AutoML 各个方面的首次全面编纂:其背后的方法,在实践中实现 AutoML 的可用系统以及评估它们的挑战。本书为从业人员提供了开发自已的 AutoML 系统的背景和方法,并详细介绍了可立即应用于各种机器学习任务的现有最先进的系统。这个领域正在快速发展,希望通过这本书,帮助组织和消化许多最新的进展。我们希望您喜欢这本书,并加入不断壮大的 AutoML 爱好者社区。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值