机器学习中过拟合问题分析及解决方法

本文深入探讨了机器学习中的过拟合问题,指出模型复杂度过高导致在训练集上误差小而测试集误差大的现象。解决过拟合的方法包括正则化和决策树剪枝,如正则化的先验知识应用、决策树的预剪枝与后剪枝,特别是后剪枝中的悲观剪枝和降低错误率剪枝策略。
摘要由CSDN通过智能技术生成

机器学习中过拟合问题分析及解决方法

表现:在训练集上的误差特别小,在测试集上的误差特别大。
原因:模型过于复杂,过分拟合数据噪声和outliers(离群值).
解决方法:
1、正则化。模型中添加先验知识,降低模型复杂度,降低噪声和离群值outliers的扰动影响。
举例1:抛硬币,推荐正面朝上的概率。如果抛五次结果都是正面朝上,得出结果正面朝上的概率是1——过拟合。
如果我们在模型中加上正面朝上概率为0.5的先验,则结果就不会离谱,这就是正则化。
举例2:最小二乘法求回归问题时,加2范数正则,等价于加高斯分布的先验;加1范数正则,等价于加拉普拉斯分布的先验。
2、决策树中的预剪枝(Pre-prunig)和后剪枝(Post-pruning).
Pre-pruning:预剪枝,预先设定某些规则,限定决策树的充分生长。实际运用较少。
Post-pruning:后剪枝,待决策树充分生长后,再通过某些规则进行剪枝。实际运用较多。
后剪枝:在决策树形成后,删除一些子树,用其叶子节点代替,叶子节点的类别用大多数原则确定,即被删除子树中多有节点中类别划分最多的类作为剪枝后的叶子节点类别。(majority class)
悲观剪枝Pessimistic-Error Pruning:使用训练集生成决策树,又使用训练集进行剪枝,会产生错分,但速度快,效率高。
降低错误率剪枝Reduced-Error Pruning:考虑 树上每个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值