分支过多造成过拟合
剪枝:主动去掉分支降低过拟合的风险,增强泛化能力。
基本策略:预剪枝和后剪枝。一个提前终止生长,一个树形成之后再剪。用留出法进行评估。
预剪枝:先确定根节点,在验证集上确定哪个属性是最佳的。先不划分,就是通过标签去算精度看看得分多少;若划分,就看划分后的精度,如果精度上升就可以。然后形成划分后的叶节点和包含的子集,再依据子集的属性进行下面的划分。
后剪枝:先考虑最后一个分支,方便,容易处理。从底部往上找。
评价:
时间开销:预剪枝:训练时间开销降低,测试时间开销降低。后剪枝:训练时间开销上升,测试时间开销降低。(相对于没剪枝)
拟合风险:预剪枝:过拟合风险降低,欠拟合风险上升;后剪枝:过拟合风险降低,欠拟合风险不变。
泛化性能:后剪枝好一些。