超参数（Hyperparameter）

大囚长

于 2025-04-18 09:41:27 发布

阅读量968

点赞数 15

分类专栏：机器学习大模型文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/Jailman/article/details/147222884

版权

大模型同时被 2 个专栏收录

136 篇文章

订阅专栏

机器学习

131 篇文章

订阅专栏

超参数（Hyperparameter）是机器学习模型训练过程中需预先设定的配置参数，它们无法通过数据自动学习，而是由开发者手动调整以优化模型性能。

在这里插入图片描述

一、超参数的定义与分类

核心定义
超参数是模型外部的配置变量，用于控制模型的学习过程或结构。例如：
- 在神经网络中，学习率、层数、每层神经元数量等属于超参数；
- 在随机森林中，树的深度和数量也是超参数。
  与之相对的模型参数（如神经网络的权重）则是通过训练数据自动学习得到。
分类
根据影响方向，超参数可分为三类：
- 结构类：如神经网络的层数、神经元数量；
- 训练类：如学习率、批量大小（Batch Size）、优化算法（如Adam、SGD）；
- 正则化类：如L1/L2正则化系数、Dropout比率，用于防止过拟合。

二、超参数的核心作用

控制模型复杂度
- 通过调整层数、神经元数量等结构参数，可平衡模型的表达能力与计算成本。例如，增加神经网络层数能提升复杂特征的学习能力，但也可能引发过拟合。
- 正则化超参数（如L2系数）通过约束权重大小，降低模型复杂度以提高泛化能力。
优化训练过程
- 学习率：决定参数更新步长。过高会导致震荡甚至发散，过低则收敛缓慢。
- 批量大小：影响内存占用与梯度稳定性。大批量加速训练但可能降低泛化能力，小批量引入噪声有助于跳出局部最优。
- 迭代次数（Epochs）：控制数据遍历次数，需在欠拟合与过拟合间权衡。
提升泛化性能
正则化超参数（如Dropout）通过随机屏蔽神经元，减少神经元间的共适应性，从而增强模型对新数据的适应能力。

三、超参数优化方法

网格搜索（Grid Search）
遍历预定义的超参数组合，通过交叉验证评估性能。适用于低维空间，但计算成本高。

# 示例：逻辑回归的网格搜索（网页5）
param_grid = {'C': [0.001, 0.1, 1], 'penalty': ['l1', 'l2']}
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)

随机搜索（Random Search）
从指定分布中随机采样超参数组合，效率高于网格搜索，尤其适合高维空间。

贝叶斯优化（Bayesian Optimization）
基于概率模型预测最优超参数，减少评估次数。例如，使用高斯过程代理模型指导搜索方向。

# 示例：随机森林的贝叶斯优化（网页5）
search_spaces = {'max_depth': (2,20), 'n_estimators': (10,500)}
bayes_search = BayesSearchCV(RandomForestClassifier(), search_spaces, n_iter=50)