三大决策树的比较——ID3、C4.5、CART

类型ID3C4.5CART
解决问题分类分类分类、回归
划分指标信息增益增益率基尼指数
指标特点会偏向可取值数目加多的属性会偏向可取值数目较少的属性
属性选择选择信息增益最大的属性先找出信息增益高于平均水平的属性,再从中选择增益率最高的选择划分后基尼指数最小的属性
划分规则多叉的多叉的二叉的,所以选择最优特征后还需要决定该特征的最优二值切分点
优缺点DI3会偏向可取值数目加多的属性
ID3算法并未给出处理连续数据的方法
ID3算法不能处理带有缺失值的数据集
ID3算法只有树的生成, 所以容易过拟合
C4.5可以处理连续值
C4.5时间耗费大
CART可以解决回归问题

其中,

  1. 信息熵定义:
    E n t ( D ) = − ∑ k = 1 n p k l o g 2 p k Ent(D)=-\sum_{k=1}^{n}p_klog_2p_k Ent(D)=k=1npklog2pk
    其中 n n n 为D中的类别数。
  2. 信息增益定义:
    离散属性a有V个可能取值,使用a对样本集D划分,产生V个子样本集 D v {D^v} Dv,则用属性a对样本集D进行划分所获得的信息增益为$ G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V C ( D v ) C ( D ) E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^{V}{\frac{C(D^v)}{C(D)}Ent(D^v)} Gain(D,a)=Ent(D)v=1VC(D)C(Dv)Ent(Dv)
    其中 C(D) 表示集合 D 的大小。
  3. 增益率定义:
    G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} Gain_ratio(D,a)=IV(a)Gain(D,a)
    其中, I V ( a ) = − ∑ v = 1 V C ( D v ) C ( D ) l o g 2 C ( D v ) C ( D ) IV(a)=-\sum_{v=1}^V{\frac{C(D^v)}{C(D)}log_2\frac{C(D^v)}{C(D)}} IV(a)=v=1VC(D)C(Dv)log2C(D)C(Dv)称为属性 a 的“固有值”。属性 a 的可能取值数目越多,则 IV(a) 的值通常会越大。
  4. 基尼指数定义:
    G i n i _ i n d e x ( D , a ) = ∑ v = 1 V C ( D v ) C ( D ) G i n i ( D v ) Gini\_index(D,a)=\sum_{v=1}^V\frac{C(D^v)}{C(D)}Gini(D^v) Gini_index(D,a)=v=1VC(D)C(Dv)Gini(Dv)
    其中 G i n i ( D ) = 1 − ∑ k = 1 n p k 2 Gini(D)=1-\sum_{k=1}^np_k^2 Gini(D)=1k=1npk2称为数据集 D 的基尼值。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值