决策树算法中处理噪音点

最新推荐文章于 2023-04-28 21:04:47 发布

alwaysuzybai

最新推荐文章于 2023-04-28 21:04:47 发布

阅读量690

点赞数

分类专栏：机器学习文章标签：算法决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57656758/article/details/128209228

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

目录

如何解决？——采用剪枝的方法。

如果训练集中存在噪音点，模型在学习的过程总会将噪音与标签的关系也学习进去，这样就会造成模型的过拟合化，也就是模型在训练集的分类效果很好，在未知数据上处理效果不好。

如何解决？——采用剪枝的方法。

一般存在“预剪枝”和“后剪枝”两种策略。

预剪枝

预剪枝即为在决策树生成过程中，对当前节点的划分结果进行评价，如果该划分不能带来决策树泛化能力(即处理未见过示例的能力)的提升，则停止划分，将当前结点标记为叶节点；

后剪枝

先生成一颗完整的决策树，然后自底向上的对非叶节点进行评价，如果剪掉该枝可以使得泛化性能提升，则将该子树替换为叶子节点。预先剪枝可能会过早的终止决策树的生长，后剪枝一般能够产生更好的效果。但后剪枝在子树被剪掉后，决策树生长的一部分计算就被浪费了。

这里简单介绍一个剪枝算法，首先我们要明确，剪枝的目的是为了减小过拟合带来的不良影响，降低决策树模型的复杂度，但是同时也要保证其对于训练数据有较好的分类效果。因此，定义一个损失函数，如下：

$C_{\alpha }(T)=C(T)+\alpha|T|$

其中， $\alpha \geq 0$ 为参数，C(T)表示模型对于训练数据的预测误差。|T|表示叶子节点的个数，可用于表示模型的复杂度。可以看出，参数 $\alpha$ 控制着模型复杂度和对训练数据拟合程度两者之间的影响。较大的 $\alpha$ 促使我们选择一个较简单的树，而较小的 $\alpha$ 则偏向于对训练数据有更好的拟合效果。

因此可以利用上面的损失函数进行剪枝操作，这样得到的决策树既考虑到对训练数据的拟合，又增强了泛化能力。

其他一些剪枝算法借助验证集实现，有的算法通过设置信息赠益的阈值来作为剪枝判断标准，具体的算法过程可以参考相关文献。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。