机器学习中过拟合问题分析及解决方法

最新推荐文章于 2024-08-24 10:14:13 发布

qq_23617681

最新推荐文章于 2024-08-24 10:14:13 发布

阅读量2.2k

点赞数

分类专栏：决策树过拟合文章标签：过拟合决策树

本文链接：https://blog.csdn.net/qq_23617681/article/details/51464942

版权

本文深入探讨了机器学习中的过拟合问题，指出模型复杂度过高导致在训练集上误差小而测试集误差大的现象。解决过拟合的方法包括正则化和决策树剪枝，如正则化的先验知识应用、决策树的预剪枝与后剪枝，特别是后剪枝中的悲观剪枝和降低错误率剪枝策略。

摘要由CSDN通过智能技术生成

机器学习中过拟合问题分析及解决方法

表现：在训练集上的误差特别小，在测试集上的误差特别大。
原因：模型过于复杂，过分拟合数据噪声和outliers(离群值).
解决方法：
1、正则化。模型中添加先验知识，降低模型复杂度，降低噪声和离群值outliers的扰动影响。
举例1：抛硬币，推荐正面朝上的概率。如果抛五次结果都是正面朝上，得出结果正面朝上的概率是1——过拟合。
如果我们在模型中加上正面朝上概率为0.5的先验，则结果就不会离谱，这就是正则化。
举例2：最小二乘法求回归问题时，加2范数正则，等价于加高斯分布的先验；加1范数正则，等价于加拉普拉斯分布的先验。
2、决策树中的预剪枝（Pre-prunig）和后剪枝（Post-pruning）.
Pre-pruning:预剪枝，预先设定某些规则，限定决策树的充分生长。实际运用较少。
Post-pruning:后剪枝，待决策树充分生长后，再通过某些规则进行剪枝。实际运用较多。
后剪枝：在决策树形成后，删除一些子树，用其叶子节点代替，叶子节点的类别用大多数原则确定，即被删除子树中多有节点中类别划分最多的类作为剪枝后的叶子节点类别。（majority class）
悲观剪枝Pessimistic-Error Pruning：使用训练集生成决策树，又使用训练集进行剪枝，会产生错分，但速度快，效率高。
降低错误率剪枝Reduced-Error Pruning：考虑树上每个