机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法

本文介绍了决策树中的几种算法,包括C4.5和C5.0的区别,C5.0主要在大数据集上提高了执行效率和内存利用率。CHAID算法通过卡方值选择根节点和节点分裂,要求样本量大且每个单元期望频数至少为5。而QUEST算法适用于分类型和数值型输入变量,输出为分类变量,通过卡方或F检验选择最佳分支变量。
摘要由CSDN通过智能技术生成

在这里插入图片描述

C4.5和C5.0的区别:
C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。

CHAID算法

  • 根节点的选取:
    每个输入变量和输出变量(标签)做独立性检验,卡方值最大(P值最小)的为父节点,也就是说,跟输出变量相关的显著性最高的变量作为根节点。

  • 节点的分裂:
    一、连续型输入变量:

1、先将输入变量进行区间划分,比如输入变量为价格,价格的最小单位是1元,那么,组距为1,划分区间为[1]、[2]、[3]、…,计算每个区间里面的频数,再算出与输出变量的交叉表。
在这里插入图片描述
在这里插入图片描述

2、计算两两相邻区间和输出变量的卡方值。
比如[1]和[2],如下表,对其进行独立性检验,如果卡方值<临界值,P值大于显著水平,说明价格是1或者是2,对是否购买产品没有影

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值