过拟合问题和解决方案

过拟合

模型越复杂,模型对训练集的测试效果越好,但对测试集的测试效果很差,此时称为过拟合。

如样本是9个点,当多项式回归是2次或3次时,拟合效果不错但仍有误差; 当多项式是9次时,可以计算出一条曲线完美通过所有样本点,但这种方式显然把样本的噪音全部拟合出来了,模型放到训练集时效果很差。

 

对此,有正则化(加惩罚项)和交叉验证两种方法来避免过拟合。

 

正则化

正则化假设有效的模型不会太复杂(奥卡姆剃刀定律),在经验风险后面加上一个惩罚项,得到结构风险表达式。在多项式回归中,惩罚项可以是参数向量的L0, L1, L2范数。

 

什么是范数

记住该公式其他公式都是该公式的引申。
L-0范数:用来统计向量中非零元素的个数。
L-1范数:向量中所有元素的绝对值之和。可用于优化中去除没有取值的信息,又称稀疏规则算子。
L-2范数:典型应用——欧式距离。可用于优化正则化项,避免过拟合。
L-∞范数:计算向量中的最大值。

https://blog.csdn.net/a6333230/article/details/87860875

 

S折交叉验证

S折交叉验证是指,将数据切分为S份,任取其中一份作为测试集,其他S-1份左右训练集,进行训练和测试。 上述过程可以重复S次(取遍所有测试集),最后综合S次的结果得到最优的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值