机器学习防止过拟合方法

最新推荐文章于 2024-09-24 10:29:11 发布

sunwillz

最新推荐文章于 2024-09-24 10:29:11 发布

阅读量466

点赞数

分类专栏：机器学习文章标签：机器学习过拟合

本文链接：https://blog.csdn.net/sunyangwei1993/article/details/78004491

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

过拟合可以通过早停法、扩增训练集和正则化等方法来防止。早停法在验证集准确率不再提升时停止训练。扩增训练集通过添加噪声或重采样增加样本多样性。正则化通过L1和L2正则项减少模型复杂度，提高泛化能力。

摘要由CSDN通过智能技术生成

过拟合解决方法

防止过拟合：early stopping、扩增训练集、正则化、dropout

Early stopping

Early stopping便是一种迭代次数截断的方法来防止过拟合的方法，即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。
Early stopping方法的具体做法是，在每一个Epoch结束时（一个Epoch集为对所有的训练数据的一轮遍历）计算validation data的accuracy，当accuracy不再提高时，就停止训练。这种做法很符合直观感受，因为accurary都不再提高了，在继续训练也是无益的，只会增加训练的时间。那么该做法的一个重点便是怎样才认为validation accurary不再提高了呢？并不是说validation accuracy一降下来便认为不再提高了，因为可能经过这个Epoch后，accuracy降低了，但是随后的Epoch又让accuracy又上去了，所以不能根据一两次的连续降低就判断不再提高。一般的做法是，在训练的过程中，记录到目前为止最好的validation accuracy，当连续10次Epoch（或者更多次）没达到最佳accuracy时，则可以认为accuracy不再提高了。此时便可以停止迭代了（Early Stopping）。这种策略也称为“No-improvement-in-n”，n即Epoch的次数，可以根据实际情况取，如10、20、30……

扩增训练集

有时候往往拥有更多的数据胜过一个好的模型。因为我们在使用训练数据训练模型，通过这个模型对将来的数据进行拟合，而在这之间又一个假设便是，训练数据与将来的数据是独立同分布的。即使用当前的训练数据来对将来的数据进行估计与模拟，而更多的数据往往估计与模拟地更准确。因此，更多的数据有时候更优秀。但是往往条件有限，如人力物力财力的不足，而不能收集到更多的数据，如在进行分类的任务中，需要对数据进行打标，并且很多情况下都是人工得进行打标，因此一旦需要打标的数据量过多，就会导致效率低下以及可能出错的情况。所以，往往在这时候，需要采取一些计算的方式与策略在已有的数据集上进行手脚，以得到更多的数据。

通俗得讲，数据集扩增即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般有以下方法：