过拟合、欠拟合、正则化

最新推荐文章于 2024-04-04 14:00:07 发布

ep_mashiro

最新推荐文章于 2024-04-04 14:00:07 发布

阅读量795

点赞数

分类专栏：统计学习方法机器学习面试

本文链接：https://blog.csdn.net/tinkle181129/article/details/79693996

版权

本文探讨了过拟合和欠拟合的原因及模型泛化程度的理解，提出合适的模型复杂性和数据分布是关键。过拟合可通过早停策略、集成学习如Bagging、Dropout和Batch Normalization等方法缓解。正则化通过L1和L2范数，分别实现稀疏性和防止过拟合，通过调整正则项参数λ实现模型优化。

摘要由CSDN通过智能技术生成

过拟合和欠拟合

产生原因
- 欠拟合：模型学习能力不足（太简单），无法学习到数据的真实分布，即模型的期望输出和真实输出之间有很大的差异，高偏差。
- 过拟合：模型学习能力过分（太复杂），因噪声干扰等因素导致数据的分布有轻微的波动，但是模型也学习到了，导致模型的训练结果得到的数据分布过分依赖于所输入的数据，高方差。
- 从模型泛化程度上理解，欠拟合的模型在训练集和测试集上表现不足，而过拟合的模型尽管在训练集上有良好的表现，模型泛化程度较差导致在测试集上差强人意。
- 过拟合的原因是算法的学习能力过强，对数据分布而言，一些假设条件（如样本独立同分布）可能是不成立的；训练样本过少不能对整个空间进行分布估计。
缓解方法
合适的数据分布+合理的模型复杂性
合理的组合应该是：复杂的数据分布+简单的模型或者简单的数据分布+复杂的模型
神经网络中的过拟合
- 早停策略。本质上是交叉验证策略，选择合适的训练次数，避免训练的网络过度拟合训练数据。
- 集成学习策略。而DNN可以用Bagging的思路来正则化。首先我们要对原始的m个训练样本进行有放回随机采样，构建N组m个样本的数据集，然后分别用这N组数据集去训练我们的DNN。即采用我们的前向传播算法和反向传播算法得到N个DNN模型的W,b参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。不过用集成学习Bagging的方法有一个问题，就是我们的DNN模型本来就比较复杂，参数很多。现在又变成了N个DNN模型，这样参数又增加了N倍，从而导致训练这样的网络要花更加多的时间和空间。因此一般N的个数不能太多，比如5-10个就可以了。
- DropOut策略。所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。　在对训练集中的一批数据进行训练时，我们随机去掉一部分隐藏层的神经元，并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。使用基于dropout的正则化比基于bagging的正则化简单，这显而易见，当然天下没有免费的午餐，由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。
- Batch Normalization。在神经网络中存在covariate internal shift现象（就是输入x服从一定的分布，通过神经网络层映射之后，对应的输出的分布发生了改变，产生了偏移）。后面的网络总要调整参数去补偿这种改变，致使整个网络复杂化，也容易过拟合。为了解决这个问题，Batch Normalization方法，总的来说就是对层间的数据做均值和方差的修正，把输出重新映射为一个高斯分布，最终它让一些饱和非线性的激活函数可以被使用。