C4.5的剪枝
《Python大战机器学习》 第36页
基本思路:
- 计算每个节点的“经验熵”
- 递归地从树的叶节点向上回退,如果回退使“损失函数”值下降,则剪枝,把父节点变成新的叶节点
- 递归进行上一步
损失函数:
T表示决策树;
α表示先验参数,惩罚系数。α越大,树越简单;
C表示代价函数;
Tf 表示叶节点的个数;
Nt 表示在决策树的第t个叶结点中,样本的总数量;
Ntk 表示在决策树的第t个叶结点中,样本的总数量中属于输入样本中第k类的数量。若样本的总数量全属于输入样本中对应的某一类数量,则说此叶子纯度很高。
经验熵:
CART的剪枝
《Python大战机器学习》 第41页