离散变量: 离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量;离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。
决策树剪枝算法,剪枝是一种正则化。所谓的正则化,可以理解成通过某种手段使得最终模型更接近于结构最优以防止过拟合。
其中:
- |T| 表示树 T 中 leaf 的个数,Nt、Ht分别表示第 t 个 leaf 的样本个数和熵
- α是惩罚因子、也就是新加入的、刻画模型复杂度的损失。可以看到,这里我们认为 leaf 的个数反映了模型的复杂度。
有了损失函数的定义之后,决策树的剪枝算法从直观上来说就是:如果一个 node 把它所有子孙都扔掉并变成一个 leaf 后、上述损失函数反而减少、那么就把这个 node 变成 leaf。