CART决策树特征重复使用问题：构建CART决策树时，使用了特征a作为分裂点，其子树仍然可能再次使用特征a作为分裂点

正义的彬彬侠

于 2024-10-06 21:40:52 发布

阅读量412

点赞数 14

分类专栏：机器学习文章标签：机器学习决策树 CART 算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013172930/article/details/142732272

版权

机器学习专栏收录该内容

62 篇文章 1 订阅

订阅专栏

在构建 CART 决策树 时，特征 $a$ 可以在子树中再次被使用作为分裂点。这是与 ID3 和 C4.5 等决策树算法的一个重要区别。

详细解释：

CART 决策树的核心思想是通过递归地选择最优的特征和分裂点，将数据集划分为不同的子区域，直到达到某个停止条件（如叶子节点的纯度足够高，或者节点中的样本数太少）。在这个过程中，同一个特征可以多次作为分裂点出现在不同的层次上。

特征重复使用的原因：

连续特征的处理：
- CART 决策树在处理连续特征时，会尝试为每个特征找到一个最优的分裂点。
- 对于连续特征（如房屋面积、收入等），一个特征可以有多个不同的分裂点。例如，房屋面积可以在 1500 平方英尺处进行第一次分裂，而后在子节点中，可能再次使用房屋面积作为特征，在 2000 平方英尺处进行分裂。
局部最优选择：
- CART 决策树每次做出分裂决策时，都是局部最优的选择。即使某个特征已经在上层节点中被使用过，但它仍然可能在下层的子树中成为最优选择，尤其是当该特征的值在当前子集中仍然有很强的区分能力时。
特征的重要性依赖于当前子集：
- 当数据集被划分后，不同子集中的数据分布可能发生了变化。某个特征可能在较高层的某个节点表现得不如其他特征，但在某个子集中，该特征可能变得更有区分能力，因此该特征可以再次被选择用于进一步划分子集。

举例说明：

假设我们有一个数据集，用于预测房屋价格。数据集中包含以下两个特征：

房屋面积（square footage）：这是一个连续型特征。
房屋所在城市（city）：这是一个离散型特征。

在构建 CART 决策树的过程中，房屋面积 $a$ 可能首先作为分裂点，比如分裂为：

$R_1$ ：房屋面积小于等于 1500 平方英尺。
$R_2$ ：房屋面积大于 1500 平方英尺。

接着，在 $R_1$ 和 $R_2$ 的子集中，决策树可能会再次使用房屋面积作为分裂特征，因为在不同的区域中，房屋面积仍然对房价有显著的影响。例如，在 $R_2$ 中，房屋面积可能会再次被用来划分，例如使用 2000 平方英尺作为新的分裂点。

与 ID3 和 C4.5 的区别：

在 ID3 和 C4.5 算法中，每个特征只能在当前路径中使用一次，即每条从根节点到叶子节点的路径上，每个特征只能被选择一次作为分裂特征。一旦某个特征被用于分裂，就不会在该路径的后续节点中再次使用。但在 CART 决策树 中，这一限制并不存在，特征可以在不同层次的节点中重复使用。

总结：

在构建 CART 决策树 时，特征 $a$ 可以在子树中再次被使用作为分裂点。这是因为 CART 采用的是局部最优策略，每次分裂时都选择能够最大化信息增益或最小化误差的特征，因此同一个特征可以在不同的层次上重复使用，特别是在处理连续型特征时。

正义的彬彬侠

关注

14
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。