超参数调优调优（三）

Aresiii

已于 2023-07-10 23:36:04 修改

阅读量258

点赞数

分类专栏：机器学习文章标签：人工智能机器学习

于 2023-07-10 23:20:31 首次发布

本文链接：https://blog.csdn.net/Aresiii/article/details/131650340

版权

机器学习专栏收录该内容

84 篇文章 7 订阅

订阅专栏

五）学习曲线分析

学习曲线分析是一种用于评估模型性能和进行超参数调优的方法。其核心思想是通过观察模型在不同训练样本数量下的性能变化，来判断模型的过拟合和欠拟合情况，并进一步进行超参数调优。

学习曲线分析的核心步骤如下：

定义超参数空间：首先，需要定义要调优的超参数以及其可能的取值范围。
定义性能指标：选择适当的性能指标来衡量模型的表现，例如准确率、均方误差、F1分数等。
划分训练集和验证集：将数据集划分为训练集和验证集，通常采用交叉验证的方法。
对每个超参数组合进行训练和评估：对于每个超参数组合，在不同的训练样本数量下，迭代地训练模型并在验证集上进行评估。
绘制学习曲线：将训练样本数量作为横坐标，性能指标作为纵坐标，绘制训练集和验证集的学习曲线。
分析学习曲线：观察学习曲线的变化趋势，判断模型的过拟合和欠拟合情况。
- 过拟合：当训练集的性能很高，但验证集的性能较低且两者之间存在较大差距时，表明模型过拟合。这时需要采取一些措施，如减少模型复杂度、增加正则化等。
- 欠拟合：当训练集和验证集的性能都较低且两者之间的差距较小时，表明模型欠拟合。这时可能需要增加模型复杂度、调整超参数等。
超参数调优：根据学习曲线的分析结果，调整超参数的取值，迭代地进行训练和评估，直到找到性能最佳的超参数组合。

以下是使用学习曲线分析进行超参数调优的示例代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 定义超参数
param_space = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 定义学习曲线分析函数
def plot_learning_curve(estimator, X, y, param_name, param_values, cv=5):
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, train_sizes=np.linspace(0.1, 1.0, 5))

    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    test_mean = np.mean(test_scores, axis=1)
    test_std = np.std(test_scores, axis=1)

    plt.figure()
    plt.title("Learning Curve")
    plt.xlabel("Training Examples")
    plt.ylabel("Score")

    plt.grid()

    plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1, color="r")
    plt.fill_between(train_sizes, test_mean - test_std, test_mean + test_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_mean, 'o-', color="r", label="Training Score")
    plt.plot(train_sizes, test_mean, 'o-', color="g", label="Cross-validation Score")

    plt.legend(loc="best")

    plt.xticks(param_values)
    plt.title(f"Learning Curve ({param_name})")

    plt.show()

# 根据超参数进行学习曲线分析
for param_name, param_values in param_space.items():
    for param_value in param_values:
        estimator = RandomForestClassifier(**{param_name: param_value})
        plot_learning_curve(estimator, X, y, param_name, param_values)

在这个示例中，我们首先定义了要调优的超参数param_space，其中包括随机森林模型的几个超参数及其取值范围。然后，我们定义了一个学习曲线分析函数plot_learning_curve，该函数接收一个估计器（带有特定超参数设置的随机森林模型）以及数据和目标标签，绘制学习曲线。

在plot_learning_curve函数中，我们使用learning_curve函数计算训练集和交叉验证集的分数随训练样本数量的变化情况。然后，我们计算平均分数和标准差，并使用matplotlib库绘制学习曲线图。每个学习曲线图都对应一个超参数和其不同取值。

最后，在主循环中，我们根据超参数空间中的每个超参数和其取值，创建一个具有特定超参数设置的随机森林模型，并通过plot_learning_curve函数进行学习曲线分析和绘制。

这样，您就可以观察不同超参数设置下学习曲线的变化情况，以帮助您选择最佳的超参数组合。通过学习曲线分析，您可以判断模型的过拟合和欠拟合情况，了解模型在不同训练集大小下的性能表现，并进一步进行超参数调优。

学习曲线分析通过观察模型在不同训练样本数量下的性能变化，可以帮助我们判断模型的拟合情况和泛化能力，并进一步调整超参数以提高模型的性能。学习曲线的形状可以揭示模型的高方差（过拟合）和高偏差（欠拟合）问题，从而指导超参数调优的方向。

需要注意的是，学习曲线分析是一种相对简单但非常有用的方法，可以在超参数调优过程中提供有价值的信息。然而，对于复杂的模型和大型数据集，学习曲线的计算可能较为耗时，因此在实践中需要根据具体情况进行调整和优化。

六）交叉验证

交叉验证是一种常用的评估模型性能和进行超参数调优的方法，其核心思想是通过划分数据集为训练集和验证集，多次训练模型并在验证集上进行评估，从而得到对模型性能的更准确估计，并选择最佳的超参数组合。

交叉验证的核心步骤如下：

划分数据集：将数据集划分为训练集和验证集。通常使用k折交叉验证，将数据集分为k个子集，其中k-1个子集用作训练集，剩下的1个子集用作验证集。重复这个过程k次，确保每个子集都作为验证集一次。
定义超参数空间：首先，需要定义要调优的超参数以及其可能的取值范围。
对每个超参数组合进行训练和评估：对于每个超参数组合，使用交叉验证中的训练集和验证集，迭代地训练模型并在验证集上进行评估。
计算性能指标：根据验证集上的评估结果，计算模型的性能指标，例如准确率、均方误差、F1分数等。
选择最佳超参数组合：根据性能指标，选择具有最佳性能的超参数组合作为最终模型的参数配置。

以下是使用交叉验证进行超参数调优的示例代码：

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 定义超参数空间
param_space = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 定义最佳超参数和最佳分数
best_params = None
best_score = 0

# 根据超参数进行交叉验证
for n_estimators in param_space['n_estimators']:
    for max_depth in param_space['max_depth']:
        for min_samples_split in param_space['min_samples_split']:
            for min_samples_leaf in param_space['min_samples_leaf']:
                # 创建随机森林模型
                rf_model = RandomForestClassifier(n_estimators=n_estimators,
                                                  max_depth=max_depth,
                                                  min_samples_split=min_samples_split,
                                                  min_samples_leaf=min_samples_leaf)
                
                # 进行交叉验证并计算平均分数
                scores = cross_val_score(rf_model, X, y, cv=5)
                avg_score = scores.mean()

                # 判断是否为最佳分数，并更新最佳超参数和最佳分数
                if avg_score > best_score:
                    best_score = avg_score
                    best_params = {
                        'n_estimators': n_estimators,
                        'max_depth': max_depth,
                        'min_samples_split': min_samples_split,
                        'min_samples_leaf': min_samples_leaf
                    }

# 输出最佳超参数和对应的评估分数
print("最佳超参数：", best_params)
print("最佳分数：", best_score)

在这个示例中，我们首先定义了要调优的超参数空间param_space，其中包括随机森林模型的几个超参数及其取值范围。然后，我们定义了变量best_params和best_score，用于存储最佳超参数和对应的评估分数。

接下来，我们使用四重循环，遍历超参数空间中的每个超参数组合。对于每个超参数组合，我们创建一个具有特定超参数设置的随机森林模型，并使用cross_val_score函数进行交叉验证。然后，我们计算交叉验证的平均分数，并与当前的最佳分数进行比较。如果当前的平均分数更高，我们更新最佳分数和最佳超参数。

最后，输出找到的最佳超参数和对应的评估分数。

通过交叉验证，我们可以使用每个超参数组合的模型在不同的验证集上进行评估，从而选择最佳的超参数组合。请注意，这个示例中使用了5折交叉验证（cv=5），您可以根据需求调整交叉验证的折数。

交叉验证通过多次训练和评估模型，在不同的验证集上获得了对模型性能的更准确的估计，从而减小了对单个验证集的依赖和偶然性。通过对不同超参数组合的评估，可以选择性能最佳的超参数组合，从而提高模型的性能和泛化能力。

需要注意的是，交叉验证需要根据数据集的大小和特性来选择适当的折数（k值）。通常，较小的数据集可以使用较高的k值，如5或10折交叉验证。较大的数据集可以使用较低的k值，如3折交叉验证。此外，还可以使用Stratified K-fold交叉验证来保持类别的平衡性。

交叉验证是一种常用而有效的评估模型性能和进行超参数调优的方法，可以减少对单个验证集的依赖，提供对模型性能的更准确估计，并帮助选择最佳的超参数组合。

Aresiii

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
超参数调优调优（三）

这样，您就可以观察不同超参数设置下学习曲线的变化情况，以帮助您选择最佳的超参数组合。通过学习曲线分析，您可以判断模型的过拟合和欠拟合情况，了解模型在不同训练集大小下的性能表现，并进一步进行超参数调优。通过交叉验证，我们可以使用每个超参数组合的模型在不同的验证集上进行评估，从而选择最佳的超参数组合。接下来，我们使用四重循环，遍历超参数空间中的每个超参数组合。最后，在主循环中，我们根据超参数空间中的每个超参数和其取值，创建一个具有特定超参数设置的随机森林模型，并通过。，用于存储最佳超参数和对应的评估分数。
复制链接

扫一扫