1、过拟合曲线
逻辑回归过拟合
决策树的过拟合曲线
2、停止训练的条件
(1)节点的所有数据的输出y一致
(2)没有特征继续用来分割了
3、选择更简单的树
“Among competing hypotheses, the one with fewest assumptions should be selected”
-----------------------------William of Occam, 13th Century
将理论应用到决策树:
选择Moderate决策树,虽然训练误差比Complex大,但是验证误差一样,同时复杂度更低。
4、获取简单树的方法
4.1 early stopping早停法
(1)限制树的深度
(2)分类误差不再减小
(3)如果节点数据点太少,则停止
4.2 pruning剪枝
早停是防止决策树太复杂,剪枝是训练了复杂的树后进行简化。剪枝是早停的完善。
(1)先计算整棵树的代价C(T)
(2)选择一个分支,作为候选剪枝分支。计算剪掉这个分支后的代价C(T)。
如果剪枝后,C(T)更小,则将该分支剪去。
(3)继续看其他分支,计算减去后的C(T),并比较前后的C(T)。剪去后的更小,则剪去;否则保留。
5、early stopping早停的几个挑战
(1)限制树的深度:很难知道max_depth
(2)分类误差不再减少:如果本次没有减少,但如果继续分,下次分类误差会减少,则会错过更优分类
6、怎么定义树更简单?
根据叶子节点个数,越多越复杂
树越复杂,越可能有过拟合的风险。越简单,错误率越高。
因此,需要在拟合度和复杂度之间有个平衡。
7、决策树的代价函数cost
8、测试
剪枝和早停是用来对抗:过拟合
早停的3个方法:限制深度、节点数据太少、所有的分割方法对误差减少改善很少,甚至没有(并不是分割方法的误差减少是否一致)