决策树(二)--构造特征树和剪枝

最新推荐文章于 2024-04-25 09:26:39 发布

Phoenix_tgd

最新推荐文章于 2024-04-25 09:26:39 发布

阅读量969

点赞数 1

分类专栏：数据挖掘文章标签：决策树分类剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Phoenix_tgd/article/details/84524332

版权

前面记录了特征值的选取，现在我们就来说一下剪枝。决策树的剪枝在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常，剪枝方法处理这种过分拟合数据的问题。有常用的两种剪枝方法：先剪枝和后剪枝。先剪枝：通过提前停止树的构建（例如，通过决定在给定的结点不再分裂或划分训练元组的子集）而对树"剪枝"。一旦停止，结点就成为树叶。后剪枝：由"完全生长"的树...

摘要由CSDN通过智能技术生成

前面记录了特征值的选取，现在我们就来说一下剪枝。

决策树的剪枝

在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常，剪枝方法处理这种过分拟合数据的问题。

有常用的两种剪枝方法：先剪枝和后剪枝。

先剪枝：通过提前停止树的构建（例如，通过决定在给定的结点不再分裂或划分训练元组的子集）而对树"剪枝"。一旦停止，结点就成为树叶。

后剪枝：由"完全生长"的树剪去子树，通过删除结点的分枝并使用树叶替换它而剪掉给定节点上的子树。该树叶的类标号用子树中最频繁的类标记。

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树的叶结点的个数为 |T| ，是树的叶结点，该叶结点有 $N_{t}$ 个样本点，其中类的样本点有 $N_{tk}$ 个， k=1,2，...K ， $H_{t}(T)$ 为叶结点上的经验熵，则决策树的损失函数可以定义为：

$C_{a}(T)={C(T)+a|T|}$ （损失函数=拟合度+a*模型复杂度）

其中 $C(T)={\sum_{i=1}^{|T|}{N_{t}H_{t}(T)}$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树(二)--构造特征树和剪枝

前面记录了特征值的选取，现在我们就来说一下剪枝。决策树的剪枝在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常，剪枝方法处理这种过分拟合数据的问题。有常用的两种剪枝方法：先剪枝和后剪枝。先剪枝：通过提前停止树的构建（例如，通过决定在给定的结点不再分裂或划分训练元组的子集）而对树"剪枝"。一旦停止，结点就成为树叶。后剪枝：由"完全生长"的树...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。