【数据挖掘导论】对于决策树要掌握的几个问题

Yozu_Roo

已于 2023-06-07 07:53:28 修改

阅读量705

点赞数

分类专栏：数据挖掘文章标签：分类机器学习数据挖掘

于 2022-03-05 14:36:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45955883/article/details/123291004

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了决策树的基本概念，包括Hunt算法的构建步骤，常见衡量不纯度的方式如熵、基尼系数和分类错误。后续讨论了ID3算法与C4.5算法，着重于信息增益和增益率的选择。还涵盖了连续属性划分技巧及避免过拟合的剪枝策略。

摘要由CSDN通过智能技术生成

1. 什么是决策树？如何构建一棵决策树？

决策树是一种分类技术，一般使用hunt算法构建一个决策树，Hunt算法的递归定义如下：（1）如果所有记录属于同一个类，则该节点作为叶子节点；（2）否则，选择一个属性将其分为更小的类，将记录保存在子女节点中，然后对于子女节点递归地调用该算法。

2. 介绍一下常见的几种衡量不纯度的方式。

常见的几种指标包括：熵、基尼指数、classification error
上述的三种指标越大，说明信息越混乱，不纯度就越高。

3. 什么是ID3算法？

在Hunt算法的基础之上，选择信息增益作为每次衡量划分效果的指标，选择信息增益最大的属性进行分裂。

信息增益是划分前节点的熵和划分后所有节点的熵的加权平均值的差，一般而言，差值越大，说明划分效果越好。

4. 什么是C4.5算法？有什么好处？

在Hunt算法的基础之上，选择增益率作为每次衡量划分效果的指标，选择增益率最大的属性进行分裂。

增益率是信息增益与Split Info的比值，其中 split info =
训练数据集S通过属性A的属性值划分为m个子数据集， |Sj|表示第j个子数据集中样本数量， |S|表示划分之前数据集中样本总数量。

ID3算法解决了熵和基尼指数等不纯度度量趋向有利于具有大量不同值的属性的问题。

5. 对于连续属性该如何划分？

将连续属性从小到大排序，从相邻的排过序的属性值中选择中间值作为候选划分点。

6. 决策树中如何避免过拟合现象？

剪枝，包括先剪枝和后剪枝。
后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中所有非叶节点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大的多。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Yozu_Roo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。