一文盘点AutoML 库，自动机器学习演讲摘要

最新推荐文章于 2020-11-09 12:00:00 发布

Datawhale

最新推荐文章于 2020-11-09 12:00:00 发布

阅读量285

点赞数 1

作者：Xu LIANG

翻译：王雨桐

校对：王威力

本文长度约为1300字，建议阅读5分钟

自动化程度

Jeff Dean在ICML 2019上进行了有关AutoML的演讲，并将自动化分为4个级别：

广泛使用的优化方法有两种，一种是贝叶斯优化方法，它基于过去的结果搜索未知参数范围。典型的算法有TPE，SMAC，GP-EL等。

另一种方法是在训练时终止学习，从而高效地搜索参数，例如逐层减半（Successive Halving），超带宽（Hyperband）等。

蓝色点表示训练将继续，红色点表示训练将停止。

我们可以将这些库分为贝叶斯优化算法和早停法算法。

综合考虑到质量和速度，我们推荐使用的两个库是Optuna和scikit-optimize。

TPOT和Auto-sklear在使用上仍然有局限性。因此，我们将特征工程分为两类，特征生成和特征选择。

Optuna也可以解决CASH问题，如下图。

自动算法选择的比较如下：

图七表示的是不同框架算法下，在分类数据集问题上的F1值。图八表示的不同框架算法下，在回归数据集上的均方误差（MSE）。其中箱型图分别表示上限、下四分位、中位、下四分位、下限，灰色圆圈表示异常值。

针对不同的任务推荐使用不同方法。

自动神经体系结构搜索在学术界也是一个非常热门的话题，但在工业界并未得到广泛使用。

以下是日语幻灯片的链接：

https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019

原文链接：

https://towardsdatascience.com/overview-of-automl-from-pycon-jp-2019-c8996954692f

编辑：王菁

校对：林亦霖

译者简介

王雨桐，UIUC统计学在读硕士，本科统计专业，目前专注于Coding技能的提升。理论到应用的转换中，敬畏数据，持续进化。

关注