【机器学习课程-华盛顿大学】：3 分类 3.4 决策树过拟合

有石为玉

于 2018-06-13 15:21:37 发布

阅读量364

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41770169/article/details/80678471

版权

机器学习专栏收录该内容

63 篇文章 5 订阅

订阅专栏

1、过拟合曲线

逻辑回归过拟合

决策树的过拟合曲线

2、停止训练的条件

（1）节点的所有数据的输出y一致

（2）没有特征继续用来分割了

3、选择更简单的树

“Among competing hypotheses, the one with fewest assumptions should be selected”

-----------------------------William of Occam, 13th Century

将理论应用到决策树：

选择Moderate决策树，虽然训练误差比Complex大，但是验证误差一样，同时复杂度更低。

4、获取简单树的方法

4.1 early stopping早停法

（1）限制树的深度

（2）分类误差不再减小

（3）如果节点数据点太少，则停止

4.2 pruning剪枝

早停是防止决策树太复杂，剪枝是训练了复杂的树后进行简化。剪枝是早停的完善。

（1）先计算整棵树的代价C(T)

(2)选择一个分支，作为候选剪枝分支。计算剪掉这个分支后的代价C(T)。

如果剪枝后，C(T)更小，则将该分支剪去。

（3）继续看其他分支，计算减去后的C(T)，并比较前后的C(T)。剪去后的更小，则剪去；否则保留。

5、early stopping早停的几个挑战

（1）限制树的深度：很难知道max_depth

（2）分类误差不再减少：如果本次没有减少，但如果继续分，下次分类误差会减少，则会错过更优分类

6、怎么定义树更简单？

根据叶子节点个数，越多越复杂

树越复杂，越可能有过拟合的风险。越简单，错误率越高。

因此，需要在拟合度和复杂度之间有个平衡。

7、决策树的代价函数cost

8、测试

剪枝和早停是用来对抗：过拟合

早停的3个方法：限制深度、节点数据太少、所有的分割方法对误差减少改善很少，甚至没有（并不是分割方法的误差减少是否一致）

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。