机器学习之决策树(算法详细推导)

决策树

决策树针对缺失数据的处理办法

  1. 放弃含缺失值的样本,仅使用无缺失值的样本来进行学习
  2. 根据此属性值已知的其他样本,来估计这个缺失的属性值
    • 赋给它当前结点所有样本中该属性最常见的值
    • 赋给它当前结点同类样本中该属性最常见的值
    • 为含缺失值属性的每个可能值赋予一个概率

信息熵

范围
[0, log ⁡ 2 n \log_2n log2n], 0->确定事件; log ⁡ 2 n \log_2n log2n->均匀分布
特征

Ent(x): 当x的取值越多越大

Ent(x,a): 当a的前提下,x的取值越多越大

决策树类型

ID3(基于信息增益)

m a x a        G a i n ( D , a ) = E n t ( D ) − E n t ( D , a ) max_a~~~~~~Gain(D,a)=Ent(D)-Ent(D,a) maxa      Gain(D,a)=Ent(D)Ent(D,a)

C4.5(基于信息增益率)

m a x a     G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) E n t ( a ) max_a~~~Gain\_ratio(D,a)=\frac{Gain(D,a)}{Ent(a)} maxa   Gain_ratio(D,a)=Ent(a)Gain(D,a)

CART(基于基尼系数)

m i n a       G i n i ( D , a ) = ∑ i = 1 m p ( a i ) G i n i ( D i ) G i n i ( D i ) = 1 − ∑ k ∈ D i p ( k ) 2 min_a~~~~~Gini(D,a)=\sum_{i=1}^mp(a_i)Gini(D_i)\\ Gini(D_i)=1-\sum_{k\in D_i} p(k)^2 mina     Gini(D,a)=i=1mp(ai)Gini(Di)Gini(Di)=1kDip(k)2

终止分支的条件
  • Gain <= threshold
  • 该节点上所有样本的类别相同
  • 所有特征都已经用过了
注意
  • 信息增益不会<0
  • 叶子节点不一定确保只有一个类别
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值