C4.5和C5.0的区别:
C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。
CHAID算法
-
根节点的选取:
每个输入变量和输出变量(标签)做独立性检验,卡方值最大(P值最小)的为父节点,也就是说,跟输出变量相关的显著性最高的变量作为根节点。 -
节点的分裂:
一、连续型输入变量:
1、先将输入变量进行区间划分,比如输入变量为价格,价格的最小单位是1元,那么,组距为1,划分区间为[1]、[2]、[3]、…,计算每个区间里面的频数,再算出与输出变量的交叉表。
2、计算两两相邻区间和输出变量的卡方值。
比如[1]和[2],如下表,对其进行独立性检验,如果卡方值<临界值,P值大于显著水平,说明价格是1或者是2,对是否购买产品没有影