根据数据集在当前模型参数下的情况判断参数拟合情况
训练集与验证集不同表现与拟合情况
从图中我们能够看出,模型在训练集上表现很好,但是在交叉验证集上表现先好后差。表明出现了过拟合。
正则化、k折交叉验证,防止过拟合,提高模型的泛化能力。
发生过拟合的主要原因可以有以下三点:
(1)数据有噪声
(2)训练数据不足,有限的训练数据
(3)训练模型过度导致模型非常复杂
解决过拟合的方法
1、避免过拟合的方式之一是使用交叉验证(cross validation),这有利于估计测试集中的错误,同时有利于确定对模型最有效的参数。一边用训练集对模型进行训练,一边观察当前的参数在验证集上的表现,当效果开始变差(误差变大)时,说明即将出现了过拟合,此时停止训练。
2、正则化,包括L1正则化、L2正则化等
正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。
参数复杂容易过拟合,添加参数的惩罚项,比如L1范数、L2范数、L1-L2共同使用
3、增大训练集
机器学习中正则化项L1和L2的直观理解https://blog.csdn.net/jinping_shi/article/details/52433975
【机器学习】正则化项L1和L2的直观理解https://www.jianshu.com/p/aa3b82417db2
怎么解决过拟合与欠拟合https://blog.csdn.net/u010899985/article/details/79471909
解决过拟合方法https://zhuanlan.zhihu.com/p/42070435
正则化技术