《机器学习》第四章决策树答案

最新推荐文章于 2022-09-27 09:55:42 发布

X_dmword

最新推荐文章于 2022-09-27 09:55:42 发布

阅读量9.3k

点赞数 2

分类专栏：决策树文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/X_dmword/article/details/83820442

版权

本文详细探讨了决策树的学习过程，证明了不含冲突数据的训练集必然存在一致的决策树。同时，分析了以最小训练误差为划分标准的局限性，可能导致过拟合。此外，介绍了基于信息熵、基尼指数和对率回归的划分选择算法，并通过实验比较了未剪枝、预剪枝、后剪枝决策树。文章还讨论了如何通过队列数据结构避免递归导致的栈溢出，以及如何通过广度优先搜索控制决策树节点数，以适应不同数据特性的决策树构建策略。

摘要由CSDN通过智能技术生成

1、证明对于不含冲突数据（即特征向量完全相同但标记不同）的训练集，必存在与训练集一致（即训练误差为0）的决策树

anser 1：假设不存在与训练集一致的决策树，那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据（若节点上没有冲突数据，那么总是能够将数据分开的）。这与前提-不含冲突数据矛盾，因此必存在与训练集一致的决策树

anser 2：考虑决策树的生成（书p74图4.2），算法生成叶节点，并递归返回条件有：

当前节点的所有样本属于同一类，叶节点类标签 -> 当前类；
当前节点的所有样本在属性上取值相同，叶节点类标签 -> 样本中最多类；
由此可见，若两训练数据样本特征向量相同，那么它们会到达决策树的同一叶节点（只代表某一类），若二者数据标签不同（冲突数据），则会出现训练误差，决策树与训练集不一致。

如果没有冲突数据，到达某节点的样本会出现以下两种情况：

样本间特征向量相同且属于同一类，满足递归结束条件，该节点为叶节点，类标签正确（无训练误差）；
样本间特征向量不同时，递归结束条件不满足，数据会根据属性继续划分，直到上一条情况出现。

综上得证，当数据集不含冲突数据时，必存在与训练集一致（训练误差为0）的决策树。

2、试析使用“最小训练误差”作为决策树划

最低0.47元/天解锁文章

关注

2
点赞
踩
59

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。