AutoML
一、自动化机器学习包简介
机器学习算法建模的流程大致为:
数据准备,包括数据收集,数据清理;
特征工程,包括特征提取,特征构建,特征选择;
模型生成,包括模型选择,模型优化(调参);
模型评估。
再往后就是模型部署,运行监控了。
现有自动化的机器学习包通常都可以自动完成整个流程的部分工作,尤其是模型建立+模型优化+模型评估,然后选出最优模型。
而理想化的机器学习算法应用应该是这样子的——只需要提供数据,其它什么数据清理、特征选择、模型优化、模型评估、部署和监控,全部交给代码自动完成。
下面,我们先逐一介绍目前市面上主流的几款机器学习自动化包,并比较它们之间的优劣。
1、H2O (Python,R,Java,Scala)
优点:编程工具兼容性最强,支持目前四大主流的机器学习语言;Python(需要Java支持), R(需要Java支持,首次配置麻烦), Java, Scala;
核心功能:HPO,超参数优化;
支持大数据平台:Hadoop, Spark,Kubernetes。