【数据挖掘导论】对于决策树要掌握的几个问题

本文介绍了决策树的基本概念,包括Hunt算法的构建步骤,常见衡量不纯度的方式如熵、基尼系数和分类错误。后续讨论了ID3算法与C4.5算法,着重于信息增益和增益率的选择。还涵盖了连续属性划分技巧及避免过拟合的剪枝策略。
摘要由CSDN通过智能技术生成
1. 什么是决策树?如何构建一棵决策树?

决策树是一种分类技术,一般使用hunt算法构建一个决策树,Hunt算法的递归定义如下:(1)如果所有记录属于同一个类,则该节点作为叶子节点;(2)否则,选择一个属性将其分为更小的类,将记录保存在子女节点中,然后对于子女节点递归地调用该算法。

2. 介绍一下常见的几种衡量不纯度的方式。

常见的几种指标包括:熵、基尼指数、classification error
上述的三种指标越大,说明信息越混乱,不纯度就越高。

3. 什么是ID3算法?

在Hunt算法的基础之上,选择信息增益作为每次衡量划分效果的指标,选择信息增益最大的属性进行分裂。

信息增益是划分前节点的熵和划分后所有节点的熵的加权平均值的差,一般而言,差值越大,说明划分效果越好。

4. 什么是C4.5算法?有什么好处?

在Hunt算法的基础之上,选择增益率作为每次衡量划分效果的指标,选择增益率最大的属性进行分裂。

增益率是信息增益与Split Info的比值,其中split info =
训练数据集S通过属性A的属性值划分为m个子数据集, |Sj|表示第j个子数据集中样本数量, |S|表示划分之前数据集中样本总数量。

ID3算法解决了熵和基尼指数等不纯度度量趋向有利于具有大量不同值的属性的问题。

5. 对于连续属性该如何划分?

将连续属性从小到大排序,从相邻的排过序的属性值中选择中间值作为候选划分点。

6. 决策树中如何避免过拟合现象?

剪枝,包括先剪枝和后剪枝。
后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中所有非叶节点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大的多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yozu_Roo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值