python--自动化的机器学习（AutoML）

Q_ytsup5681

于 2024-06-10 13:51:03 发布

阅读量989

点赞数 11

文章标签： python 自动化机器学习

本文链接：https://blog.csdn.net/q_ytsup5681/article/details/139575943

版权

自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：

1. 自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗透到农业、工业、商业、医疗等各个领域[^1^]。
2. AutoML的起源：AutoML结合了自动化和机器学习，其核心思想是将数据预处理、特征选择、算法选择、模型架构设计等步骤集成到一个“黑箱”中，通过这个系统，用户只需输入数据，就可以得到预测结果。这种自动化的系统减少了人工干预，提高了效率，降低了使用机器学习模型的门槛[^1^][^2^]。
3. AutoML的功能：AutoML平台提供了数据获取和预测的功能，用户可以通过这些平台上传数据集，进行标记，然后平台会自动完成数据预处理、算法选择、超参数调整等步骤，最终提供一个可用于预测的模型。一些平台还支持将训练好的模型导出，以便与移动应用程序整合[^1^]。
4. AutoML的意义：AutoML的研究意义在于它能够减少传统机器学习中耗时耗力的过程，如特征工程、模型选择、算法选择等，通过自动化这些过程，AutoML可以显著提高效率，降低准入门槛，使得更多非专家用户能够利用机器学习技术解决实际问题[^1^][^2^][^3^]。

此外，AutoML的研究和应用也面临着挑战，如如何提高AutoML的效率，如何定义更明确的问题，如何发展基本和高级的搜索策略，以及如何找到更适合的应用等。这些问题的解决将进一步推动AutoML技术的发展和完善。

在机器学习领域，自动化机器学习（AutoML）是一种新兴的技术，旨在简化模型构建和优化过程。通过使用预定义的模板和算法，AutoML可以自动选择最佳的模型、特征工程方法、参数等，从而降低了机器学习的门槛，使非专家用户也能轻松地构建高效的模型。

这里介绍、总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化，例如数据预处理、超参数调整、模型选择和评估。

Auto-sklearn
TPOP
HyperOpt-Sklearn
AutoKeras
H2O AutoML

除了这5个常见的库以外还有一些其他 AutoML 库，例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。

步骤代码：以下是使用Python的auto-sklearn库进行AutoML的基本步骤和代码示例。

导入必要的库：

import autosklearn.classification
import sklearn.datasets
import sklearn.model_selection

加载数据集：

X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)

将数据集划分为训练集和测试集：

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=42)

创建AutoML分类器对象：

automl = autosklearn.classification.AutoSklearnClassifier(max_memory_per_run=1024)

训练模型：

automl.fit(X_train, y_train)

评估模型在测试集上的性能：
```
accuracy = automl.score(X_test, y_test)
print("Test accuracy: ", accuracy)
```
AutoML框架执行的任务可以被总结成以下几点：
预处理和清理数据。
选择并构建适当的特征。
选择合适的模型。
优化模型超参数。
设计神经网络的拓扑结构（如果使用深度学习）。
机器学习模型后处理。
结果的可视化和

FLAML

FLAML主要设计为快速轻量级的AutoML工具，虽然其主要功能集中在监督学习，但它的灵活性允许用户进行一定程度的无监督学习任务。

特点：

轻量级设计，适合资源有限的环境。
支持多种机器学习算法。
可扩展性强，允许自定义聚类算法。

安装方法（注意与常规的不太一样）：

pip install flaml[automl]

以下是一个案例代码：

import flaml
from flaml import AutoML
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载鸢尾花数据集
data = load_iris()
X = data['data']
y = data['target']
# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 初始化FLAML的AutoML
automl = AutoML()
# 设置自动化机器学习的参数
automl_settings = {
    "time_budget": 60,  # 运行时间预算为60秒
    "metric": 'accuracy',  # 使用准确率作为评估标准
    "task": 'classification',  # 任务类型为分类
    "log_file_name": "automl.log",  # 日志文件名
}
# 运行自动化机器学习
automl.fit(X_train=X_train, y_train=y_train, **automl_settings)
# 输出最佳模型
print("Best ML model:", automl.model.estimator)
# 使用最佳模型进行预测
y_pred = automl.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
# 输出训练日志信息
with open("automl.log", "r") as log_file:
    logs = log_file.read()
    print("Training logs:\n", logs)

如果以上代码在jupyter运行不成功，需要改到.py文件，也就是在pycharm或者vscode中，如果还不行，需要查看是否包的安装正确或者环境搭配依赖问题。

此外：

FLAML的设计哲学是简化机器学习流程，这一点在其API设计中得到了体现。用户仅需少量代码即可实现复杂的模型搜索和优化，这无疑增加了FLAML的吸引力。在易用性方面，FLAML提供了与scikit-learn相似的接口，熟悉scikit-learn的用户可以快速上手FLAML，这极大地降低了学习曲线。

FLAML不仅适用于分类、回归等监督学习任务，还能处理无监督学习问题，如聚类等。这种多功能性使得FLAML可以满足不同领域用户的需求。在实际应用中，数据科学家可能会遇到各种类型的数据和模型挑战，FLAML的多用途设计使其能够适应这些变化，从而提供更为全面的解决方案。