C4.5决策树分裂详解(离散属性和连续属性)

本文详细介绍了C4.5决策树的构建过程,特别是如何处理离散属性和连续属性的分裂。通过计算信息增益率选择最佳分割点,以信息增益最大化为准则。以一个具体的例子展示了如何计算不同属性(如Outlook、Humidity、Temperature)的信息熵和增益率,最终选择最优属性进行分裂,并给出分裂后的决策树结构。
摘要由CSDN通过智能技术生成

决策树构建过程:

1、将所有训练数据集放在根节点上;

2、遍历每种属性的每种分割方式,找到最好的分割点;

3、根据2中最好的分割点将根节点分割成多个子节点(大于等于2个);

4、对剩下的样本和属性重复执行步骤2、3,直到每个子节点中的数据都属于同一类为止。

C4.5算法:

C4.5算法是采用信息增益率来进行节点的分裂的,公式为:,

其中,     ,

,    ,并且要求信息增益率越大越好。

下面举例具体计算,如下图为各种天气下是否打高尔夫球的表格。

Day Outlook Temperature Humidity Windy Play Golf
1 Sunny 85 85 F N
2 Sunny 80 90 T N
3 Overcast 83 78 F Y
4 Rainy 70 96 F Y
5 Rainy 68 80 F Y
6 Rainy 65 70 T N
7 Overca
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值