机器学习-超参数

Carrie_Lei

已于 2024-09-06 18:51:21 修改

阅读量1k

点赞数 11

分类专栏：机器学习文章标签：机器学习人工智能

于 2024-09-06 17:31:46 首次发布

本文链接：https://blog.csdn.net/finly4599/article/details/141965282

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

在机器学习中，超参数是指在模型训练之前必须设定的参数，它们不会通过模型学习自动得到，而是由开发者设定。与模型参数不同，超参数对模型的性能有显著影响，因此选择合适的超参数对训练效果至关重要。以下是机器学习中常见的超参数：

1. 学习率（Learning Rate）

定义：控制每次梯度更新时模型参数调整的步长。
作用：学习率过大会导致模型难以收敛甚至发散，过小会导致模型收敛慢或陷入局部最优。
常用于：梯度下降法、神经网络。

2. 正则化参数（Regularization Parameters）

L1 正则化：通过惩罚模型参数的绝对值减少模型复杂度（稀疏解）。
L2 正则化：通过惩罚参数的平方值来防止过拟合（权重衰减）。
作用：控制模型复杂度，避免过拟合。

3. 批量大小（Batch Size）

定义：每次模型参数更新时使用的数据量。
作用：批量大小影响训练速度和模型的稳定性，小批量增加噪声，大批量则训练稳定但资源消耗大。

4. 树的深度（Tree Depth）

定义：在决策树、随机森林等算法中，控制树的最大深度。
作用：较深的树更容易过拟合训练数据，较浅的树可能欠拟合。
常用于：决策树、随机森林、梯度提升树等。

5. 叶子节点最小样本数（Min Samples Split / Min Samples Leaf）

定义：决策树或基于树的模型在创建分支或叶子节点时的最小样本数。
作用：限制树的分支深度，减少过拟合。
常用于：决策树、随机森林、GBDT等。

6. K 值（K in K-Nearest Neighbors）

定义：在 K 近邻算法中，选择的最近邻点的数量。
作用：较大的 K 值会增加模型的平滑性，减小噪声，但可能会欠拟合；较小的 K 值更灵活，但容易过拟合。

7. 核函数类型和参数（Kernel Function and Parameters）

定义：在支持向量机（SVM）中，核函数决定将输入数据映射到高维空间的方式。
常见核函数：线性核、多项式核、径向基核（RBF）等。
参数：
- C 值：控制支持向量的软间隔大小，影响模型的惩罚强度。
- Gamma：控制 RBF 核函数的范围，影响模型对数据点的敏感性。
作用：影响支持向量机的分类边界。

8. K 折交叉验证（K-fold Cross Validation）

定义：在超参数调优过程中，用于验证模型性能的技术，将数据分成 K 份，每份依次作为验证集，剩下的作为训练集。
作用：通过多次验证评估模型性能，防止过拟合或欠拟合。

9. 隐藏层数和神经元数量（Number of Layers and Neurons）

定义：在神经网络中，隐藏层的数量以及每一层中神经元的数量。
作用：增加隐藏层和神经元数量可以增加模型的表达能力，但也容易过拟合，且训练时间和资源消耗增加。

10. Dropout 率

定义：在每次训练时，随机忽略部分神经元的比例。
作用：防止神经网络的过拟合，增加模型的泛化能力。
常用于：深度神经网络。

11. 最大迭代次数（Max Iterations）

定义：在模型训练中，允许优化算法运行的最大迭代次数。
作用：避免训练时间过长，同时可以控制模型的收敛速度。

12. 迭代次数（Epochs）

定义：模型完整遍历训练数据的次数，常用于深度学习模型。
作用：过少的迭代次数会导致欠拟合，过多会导致过拟合。

13. 步长（Step Size）

定义：在梯度提升树（GBDT）等模型中，每棵树贡献的比例。
作用：步长越大，模型更新得越快，但也可能导致过拟合。较小的步长使模型学习更稳定。

14. 嵌套交叉验证（Nested Cross Validation）

定义：用于同时评估超参数和模型性能，通过两层交叉验证避免数据泄漏。
作用：在超参数调优过程中同时验证模型性能，防止过拟合。

15. 探索空间（Search Space）

定义：超参数的所有可能组合的范围。
作用：通过网格搜索、随机搜索或贝叶斯优化等方法寻找最佳超参数组合。

超参数的调优方法

超参数的设定对模型的性能有很大影响，因此需要进行调优。常用的调优方法包括：

网格搜索（Grid Search）：
- 在给定的参数范围内穷举组合，找到性能最好的超参数。优点是全面搜索，缺点是计算成本高。
随机搜索（Random Search）：
- 在给定的参数范围内随机选择一些组合进行测试，相比网格搜索更高效。
贝叶斯优化（Bayesian Optimization）：
- 通过构建超参数与模型性能之间的概率模型，智能地选择超参数，以减少搜索的次数和时间。

1. 代码示例：网格搜索（以随机森林为例）

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# 定义模型
model = RandomForestClassifier()

# 定义超参数范围
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 网格搜索
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)

# 输出最佳超参数
print("最佳参数:", grid_search.best_params_)

2. 随机搜索（Random Search）

随机搜索通过在参数空间内随机选择一些组合进行测试，比较每个组合的模型表现，从而找到效果较好的超参数组合。相比网格搜索，它的效率更高，尤其是在参数空间较大时。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
import numpy as np

# 数据集（假设已经加载好）
# X, y = load_some_data()

# 定义模型
model = RandomForestClassifier()

# 定义超参数范围，使用scipy.stats定义随机取值范围
param_dist = {
    'n_estimators': randint(10, 200),    # 随机从10到200之间选择
    'max_depth': randint(5, 50),         # 随机从5到50之间选择
    'min_samples_split': randint(2, 11), # 随机从2到10之间选择
}

# 实例化 RandomizedSearchCV
random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=50, cv=5, scoring='accuracy', random_state=42)

# 训练模型
random_search.fit(X, y)

# 输出最佳超参数和最佳得分
print("最佳参数:", random_search.best_params_)
print("最佳模型得分:", random_search.best_score_)

n_iter=50：表示随机选择50组参数组合进行测试。
randint：用于定义随机取值范围。
cv=5：5折交叉验证。

3. 贝叶斯优化（Bayesian Optimization）

贝叶斯优化通过构建一个关于超参数和模型表现之间的概率模型（例如高斯过程），然后使用该模型来决定每次迭代应测试哪些超参数。相比随机搜索和网格搜索，它通过探索和利用之间的平衡，提高了调优效率。

使用 scikit-optimize 库中的 BayesSearchCV 来实现贝叶斯优化。

from skopt import BayesSearchCV
from sklearn.ensemble import RandomForestClassifier
from skopt.space import Integer

# 数据集（假设已经加载好）
# X, y = load_some_data()

# 定义模型
model = RandomForestClassifier()

# 定义超参数搜索空间
param_space = {
    'n_estimators': Integer(10, 200),
    'max_depth': Integer(5, 50),
    'min_samples_split': Integer(2, 10),
}

# 实例化 BayesSearchCV
bayes_search = BayesSearchCV(estimator=model, search_spaces=param_space, n_iter=30, cv=5, scoring='accuracy', random_state=42)

# 训练模型
bayes_search.fit(X, y)

# 输出最佳超参数和最佳得分
print("最佳参数:", bayes_search.best_params_)
print("最佳模型得分:", bayes_search.best_score_)