【机器学习课程-华盛顿大学】:3 分类 3.4 决策树过拟合

1、过拟合曲线

逻辑回归过拟合

 

决策树的过拟合曲线

2、停止训练的条件

 

(1)节点的所有数据的输出y一致

(2)没有特征继续用来分割了

 

3、选择更简单的树

“Among competing hypotheses, the one with fewest assumptions should be selected”

-----------------------------William of Occam, 13th Century 

 

将理论应用到决策树:

选择Moderate决策树,虽然训练误差比Complex大,但是验证误差一样,同时复杂度更低。

 

4、获取简单树的方法

4.1 early stopping早停法

(1)限制树的深度

 

(2)分类误差不再减小

 

(3)如果节点数据点太少,则停止

 

4.2 pruning剪枝

早停是防止决策树太复杂,剪枝是训练了复杂的树后进行简化。剪枝是早停的完善。

(1)先计算整棵树的代价C(T)

(2)选择一个分支,作为候选剪枝分支。计算剪掉这个分支后的代价C(T)。

如果剪枝后,C(T)更小,则将该分支剪去。

(3)继续看其他分支,计算减去后的C(T),并比较前后的C(T)。剪去后的更小,则剪去;否则保留。

 

5、early stopping早停的几个挑战

(1)限制树的深度:很难知道max_depth

(2)分类误差不再减少:如果本次没有减少,但如果继续分,下次分类误差会减少,则会错过更优分类

 

6、怎么定义树更简单?

根据叶子节点个数,越多越复杂

树越复杂,越可能有过拟合的风险。越简单,错误率越高。

因此,需要在拟合度和复杂度之间有个平衡。

 

7、决策树的代价函数cost

 

 

 

8、测试

剪枝和早停是用来对抗:过拟合

 

早停的3个方法:限制深度、节点数据太少、所有的分割方法对误差减少改善很少,甚至没有(并不是分割方法的误差减少是否一致)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值