机器学习自动化要学习什么_自动化机器学习或AutoML说明

最新推荐文章于 2024-06-05 21:45:00 发布

cxq8989

最新推荐文章于 2024-06-05 21:45:00 发布

阅读量256

点赞数

文章标签：神经网络算法大数据 python 机器学习

原文链接：https://www.infoworld.com/article/3430788/automated-machine-learning-or-automl-explained.html

版权

机器学习自动化要学习什么

使用机器学习的两个最大障碍（经典机器学习和深度学习）是技能和计算资源。您可以花钱解决第二个问题，要么购买加速的硬件（例如具有高端GPU的计算机），要么租用云中的计算资源（例如具有附加GPU，TPU和FPGA）。

另一方面，解决技能问题比较困难。数据科学家经常要求高昂的薪水，而且可能仍然很难招募。 Google能够在其自己的TensorFlow框架上培训许多员工，但大多数公司几乎没有足够的技术人员来自己构建机器学习和深度学习模型，更不用说教别人如何做了。

[在InfoWorld上深入学习机器学习：最好的机器学习和深度学习库 | 机器学习和深度学习的最佳开源软件 通过InfoWorld大数据和分析报告时事通讯深入分析和大数据。 ]

什么是AutoML？

自动化机器学习（AutoML）旨在减少或消除对熟练的数据科学家建立机器学习和深度学习模型的需求。相反，AutoML系统允许您提供标记的训练数据作为输入，并接收优化的模型作为输出。

有几种解决方法。一种方法是该软件可以简单地在数据上训练每种模型，然后选择最有效的模型。对此的一种改进是，它可以构建一个或多个将其他模型组合在一起的集成模型，有时（但并非总是）可以提供更好的结果。

第二种技术是优化一个或多个最佳模型的超参数，以训练更好的模型。特征工程（也在下面进行说明）是任何模型训练的宝贵补充。降低深度学习技能的一种方法是使用转移学习，本质上是为特定数据定制训练有素的通用模型。

什么是超参数优化？

所有机器学习模型都有参数，这意味着模型中每个变量或特征的权重。这些通常是由误差的反向传播以及在优化程序（例如随机梯度下降）控制下的迭代确定的。

大多数机器学习模型还具有在训练循环之外设置的超参数。这些通常包括学习率，辍学率和特定于模型的参数，例如“ 随机森林”中的树木数量。

超参数调整或超参数优化（HPO）是一种自动方式，可以扫描或搜索模型的一个或多个超参数，以找到生成最佳训练模型的集合。这可能很耗时，因为您需要针对扫描中的每组超参数值（外部循环）再次训练模型（内部循环）。如果并行训练许多模型，则可以减少所需时间，但以使用更多硬件为代价。

什么是特征工程？

特征是观察到的现象的单个可测量属性或特征。 “特征”的概念与解释变量的概念有关，该解释变量在诸如线性回归之类的统计技术中使用。 特征向量将单行的所有特征组合为数值向量。 特征工程是找到最佳变量集以及最佳数据编码和规范化以输入模型训练过程的过程。

选择特征的部分技巧是选择最少的一组自变量来解释问题。如果两个变量高度相关，则要么需要将它们组合为一个特征，要么应将其删除。有时人们执行主成分分析（ PCA ），将相关变量转换为一组线性不相关变量。

要将分类数据用于机器分类，您需要将文本标签编码为另一种形式。有两种常见的编码。

一种是标签编码 ，这意味着每个文本标签值都用数字代替。另一种是一键编码 ，这意味着每个文本标签值都将变成具有二进制值（1或0）的列。大多数机器学习框架都具有为您进行转换的功能。通常，单热编码是首选，因为标签编码有时会使机器学习算法混淆，以为编码列是有序的。

要将数字数据用于机器回归，通常需要将数据标准化。否则，具有较大范围的数字可能趋于主导特征向量之间的欧几里得距离，其影响可能会以其他场为代价被放大，并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习，包括最小-最大标准化，均值标准化，标准化以及缩放到单位长度。此过程通常称为特征缩放 。

人们用来构造新特征或降低特征向量维数的一些转换很简单。例如，从Year of Death Year of Birth减去Year of Birth Year of Death然后构建Age at Death ，这是生命周期和死亡率分析的主要自变量。在其他情况下， 特征构造可能不是那么明显。

什么是转学？

转移学习有时称为自定义机器学习，有时也称为AutoML（主要由Google）。 Google Cloud AutoML不会自动从数据中训练模型，而是从头开始，而是实现了自动深度传输学习（这意味着它是从对其他数据进行训练的现有深度神经网络开始的）和神经体系结构搜索（这意味着它可以找到额外信息的正确组合）网络层）用于语言对翻译，自然语言分类和图像分类。

这与AutoML通常所用的过程是不同的，并且没有涵盖太多的用例。另一方面，如果您需要在受支持的区域中定制的深度学习模型，则转移学习通常会产生更好的模型。

AutoML实现

您可以尝试许多AutoML实现。有些是付费服务，有些是免费的源代码。以下列表绝不是完整的或最终的。

AutoML服务

所有三大云服务都具有某种AutoML。 Amazon SageMaker会进行超参数调整，但不会自动尝试多个模型或执行功能工程。 Azure机器学习既具有遍历功能和算法的AutoML，也具有超参数调整功能，通常可以在AutoML选择的最佳算法上运行超参数调整。正如我之前所讨论的，Google Cloud AutoML是针对语言对翻译，自然语言分类和图像分类的深度迁移学习。

许多较小的公司也提供AutoML服务。例如， DataRobot ，声称已经发明AutoML，在市场上的良好声誉。尽管dotData占有很小的市场份额和中等的UI，但它具有强大的功能工程能力并涵盖了许多企业用例。我在2017年评论了H2O.ai无人驾驶AI ，它可以帮助数据科学家创建像Kaggle大师这样的模型，以统一的方式进行特征工程，算法扫描和超参数优化。

AutoML框架

AdaNet是基于TensorFlow的轻量级框架，可在最少的专家干预下自动学习高质量的模型。 Auto-Keras是由Texas A＆M开发的用于自动机器学习的开源软件库，它提供的功能可以自动搜索深度学习模型的体系结构和超参数。 NNI （神经网络智能）是Microsoft提供的工具包，可帮助用户以高效，自动的方式设计和调整机器学习模型（例如，超参数），神经网络体系结构或复杂系统的参数。

您可以在GitHub上找到其他AutoML项目以及相当完整的有关AutoML的论文列表。