模型训练中的过拟合\欠拟合

最新推荐文章于 2024-08-21 22:06:26 发布

superY25

最新推荐文章于 2024-08-21 22:06:26 发布

阅读量2.5k

点赞数 2

分类专栏：人工智能文章标签：机器学习拟合模型训练

本文链接：https://blog.csdn.net/superY_26/article/details/117410986

版权

人工智能专栏收录该内容

68 篇文章 11 订阅

订阅专栏

过拟合

过拟合是指模型在训练过程中学习了所有样本的特征，复杂度高于实际问题。其泛化性能很差，在训练集中表现非常好，但是在测试集上的表现很差。
在这里插入图片描述

过拟合的原因

样本的原因，样本太少；样本太过单一不足以代表实际问题；样本噪声很多，训练时学习了很多噪声的特征。
模型选取的问题，模型并不适合该样本的训练。
模型的参数太多，复杂度很高。
决策树模型的话，没有优化树的生成策略，使其完美的匹配训练集数据，而不适应其他数据集的预测。
对于神经网络模型：a)对样本数据可能存在分类决策面不唯一，随着学习的进行，BP算法使权值可能收敛过于复杂的决策面；b)权值学习迭代次数足够多(Overtraining)，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

过拟合的解决办法

解决办法还从过拟合的原因出发：

优化样本问题：扩充样本，使用更多、更能代表实际问题的训练数据；使用特征工程预处理数据，比如去除噪声数据、通过算法扩充训练样本、去除冗余特征。
选择合适的、符合实际问题的模型来训练数据集。
正则化：在损失函数中加入一定的正则约束。常见的正则化主要有L1正则化和L2正则化，1、带L1正则化的目标函数为： $C_0+\frac{\lambda}{n}\sum_i|w_i|$ 为什么L1正则化能防止过拟合呢？
带L1正则化的目标函数的梯度（导数）为 $\frac{\partial C}{\partial w}=\frac{\partial C_0}{\partial w}+\frac{\lambda}{n}sgn(w)$ 其中sgn(w)表示取 $w$ 各个元素的正负号，即：当 $w>0\Rightarrow sgn(w)=1;w=0\Rightarrow sgn(w)=0;w<0\Rightarrow sgn(w)=-1$ 。
梯度下降时权重 $w$ 更新： $\to w'=w-\frac{\eta\lambda}{n}sgn(w)-\eta\frac{\partial C_0}{\partial w}$ 所以：当 $w = 0$ 时，就是不带正则化的权重更新；当 $w > 0$ 时， $s g n (w) = 1$ 梯度下降时更新后的 $w$ 变小；当 $w < 0$ 时， $s g n (w) = - 1$ 梯度下降时更新后的 $w$ 变大。因此，L1正则化使得权重 $w$ 训练趋于零，使网络中的权重尽可能为0，就相当于减小了模型的复杂度，从而防止过拟合。
这也就是L1正则化会产生更稀疏（sparse）的解的原因。此处稀疏性指的是最优值中的一些参数为0。L1正则化的稀疏性质已经被广泛地应用于特征选择机制，从可用的特征子集中选择出有意义的特征。
2、带L2正则化的目标函数： $C=C_0+\frac{\lambda}{2n}\sum_iw_i^2$ 其梯度（导数）为： $\frac{\partial C}{\partial w}=\frac{\partial C_0}{\partial w}+\frac{\lambda}{n}w$ 梯度下降时权重w更新： $\to w-\eta\frac{\partial C_0}{\partial w}-\frac{\eta\lambda}{n}w$ 在权重更新时，权重 $w$ 将逐渐减小，趋向于0但不等于0。这也就是权重衰减（weight decay）的由来。
为什么L2正则化能防止过拟合呢？
因为L2正则使得权重变小，这样模型相对稳定，不会因为数据的变化使结果发生大的变化。不会过分拟合训练集，从而提高模型的泛化性能。
Dropout：Dropout是深度网络模型训练的一种策略，本质就是在训练的过程中将部分神经元的激活函数设为0，使得这些神经元不参与计算更新权重。
Dropout为什么能防止过拟合呢？
1、在训练过程中会产生不同的训练模型，不同的训练模型也会产生不同的的计算结果。随着训练的不断进行，计算结果会在一个范围内波动，但是均值却不会有很大变化，因此可以把最终的训练结果看作是不同模型的平均输出。
2、它消除或者减弱了神经元节点间的联合，降低了网络对单个神经元的依赖，从而增强了泛化能力。
Early stopping（提前终止）：提前终止就是在模型训练的差不多时结束训练。
Early stopping为什么能防止过拟合呢？
因为随机初始化w值的时候，它的值是较小的随机值。当你开始迭代过程，w的值会变得越来越大。到后面时，w的值已经变得十分大了。所以early stopping要做的就是在中间点停止迭代过程。我们将会得到一个中等大小的w参数，会得到与L2正则化相似的结果，选择了w参数较小的神经网络。
Early stopping的缺点：容易产生欠拟合。
集成学习方法：集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险，如Bagging 方法。