后剪枝之悲观剪枝法

最新推荐文章于 2023-02-24 09:27:46 发布

zhang4418876

最新推荐文章于 2023-02-24 09:27:46 发布

阅读量8.7k

点赞数 3

转自http://blog.csdn.net/woshizhouxiang/article/details/17679015

把一颗子树（具有多个叶子节点）的分类用一个叶子节点来替代的话，在训练集上的误判率肯定是上升的，但是在新数据上不一定。于是我们需要把子树的误判计算加上一个经验性的惩罚因子。对于一颗叶子节点，它覆盖了N个样本，其中有E个错误，那么该叶子节点的错误率为（E+0.5）/N。这个0.5就是惩罚因子，那么一颗子树，它有L个叶子节点，那么该子树的误判率估计为 $(\sum{E_i+0.5*L})/\sum{N_i}$ 。这样的话，我们可以看到一颗子树虽然具有多个子节点，但由于加上了惩罚因子，所以子树的误判率计算未必占到便宜。剪枝后内部节点变成了叶子节点，其误判个数J也需要加上一个惩罚因子，变成J+0.5。那么子树是否可以被剪枝就取决于剪枝后的错误J+0.5在 $\sum{E_i+0.5*L}$ 的标准误差内。对于样本的误差率e，我们可以根据经验把它估计成各种各样的分布模型，比如是二项式分布，比如是正态分布。

那么一棵树错误分类一个样本值为1，正确分类一个样本值为0，该树错误分类的概率（误判率）为e（e为分布的固有属性,可以通过 $(\sum{E_i+0.5*L})/\sum{N_i}$ 统计出来），那么树的误判次数就是伯努利分布，我们可以估计出该树的误判次数均值和标准差：

$E(subtree\_err\_count)=N*e$

$var(subtree\_err\_count)=\sqrt{N*e*(1-e)}$

把子树替换成叶子节点后，该叶子的误判次数也是一个伯努利分布，其概率误判率e为(E+0.5)/N，因此叶子节点的误判次数均值为

$E(leaf\_err\_count)=N*e$

使用训练数据，子树总是比替换为一个叶节点后产生的误差小，但是使用校正后有误差计算方法却并非如此，当子树的误判个数大过对应叶节点的误判个数一个标准差之后，就决定剪枝：

$E(subtree\_err\_count)-var(subtree\_err\_count)>E(leaf\_err\_count)$

这个条件就是剪枝的标准。

当并不一定非要大一个标准差，可以给定任意的置信区间，我们设定一定的显著性因子，就可以估算出误判次数的上下界。

比如T4这棵子树的误差率：

$\frac{(3+2)+0.5*3}{16}=\frac{6.5}{16}=0.40625$

子树误差率的标准误差：

$\sqrt{16*0.40625*(1-0.40625)}=1.96$

子树替换为一个叶节点后，其误差率为：

$\frac{7+0.5}{16}=0.46875$

因为 $6.5+1.96>7.5$ ，所以决定将子树T4替换这一个叶子节点。

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。