过拟合
模型越复杂,模型对训练集的测试效果越好,但对测试集的测试效果很差,此时称为过拟合。
如样本是9个点,当多项式回归是2次或3次时,拟合效果不错但仍有误差; 当多项式是9次时,可以计算出一条曲线完美通过所有样本点,但这种方式显然把样本的噪音全部拟合出来了,模型放到训练集时效果很差。
对此,有正则化(加惩罚项)和交叉验证两种方法来避免过拟合。
正则化
正则化假设有效的模型不会太复杂(奥卡姆剃刀定律),在经验风险后面加上一个惩罚项,得到结构风险表达式。在多项式回归中,惩罚项可以是参数向量的L0, L1, L2范数。
什么是范数
记住该公式其他公式都是该公式的引申。
L-0范数:用来统计向量中非零元素的个数。
L-1范数:向量中所有元素的绝对值之和。可用于优化中去除没有取值的信息,又称稀疏规则算子。
L-2范数:典型应用——欧式距离。可用于优化正则化项,避免过拟合。
L-∞范数:计算向量中的最大值。
https://blog.csdn.net/a6333230/article/details/87860875
S折交叉验证
S折交叉验证是指,将数据切分为S份,任取其中一份作为测试集,其他S-1份左右训练集,进行训练和测试。 上述过程可以重复S次(取遍所有测试集),最后综合S次的结果得到最优的模型。