ID3、C4.5与CART树的联系与区别

本文介绍了ID3、C4.5和CART决策树算法在特征选择准则、缺省值处理和连续特征处理上的区别,并分析了它们各自的优缺点。ID3基于信息增益,C4.5引入信息增益比以避免选择取值过多的特征,而CART使用基尼系数处理分类任务。C4.5和CART能更好地处理缺失值和连续特征,而ID3则需要离散化处理。
摘要由CSDN通过智能技术生成

ID3、C4.5与CART树的联系与区别:

参考博客:
链接1
链接2

特征选择准则:

ID3的特征选择准则为信息增益,即集合D的经验熵H(D)与给定特征A下条件经验熵H(D|A)之差,即:
在这里插入图片描述
H(D)表现了数据集D进行分类的不确定性,而H(D|A)表现在特征A而使得对数据集D的分类的不确定性的减少。

有公式[1]可知,当特征取值较多时,H(D) – H(D|A)的差就越大,ID3决策树会偏向于选择取值较多的特征。

C4.5的特征选择准则为信息增益比,即:
在这里插入图片描述
HA(D)为数据集D关于特征A的值的熵,在信息增益比公式中充当了一个惩罚因子,迫使决策树不去选择特征取值过多的属性。这是C4.5对ID3改进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值