决策树
决策树针对缺失数据的处理办法
- 放弃含缺失值的样本,仅使用无缺失值的样本来进行学习
- 根据此属性值已知的其他样本,来估计这个缺失的属性值
- 赋给它当前结点所有样本中该属性最常见的值
- 赋给它当前结点同类样本中该属性最常见的值
- 为含缺失值属性的每个可能值赋予一个概率
信息熵
范围
[0, log 2 n \log_2n log2n], 0->确定事件; log 2 n \log_2n log2n->均匀分布
特征
Ent(x): 当x的取值越多越大
Ent(x,a): 当a的前提下,x的取值越多越大
决策树类型
ID3(基于信息增益)
m a x a G a i n ( D , a ) = E n t ( D ) − E n t ( D , a ) max_a~~~~~~Gain(D,a)=Ent(D)-Ent(D,a) maxa Gain(D,a)=Ent(D)−Ent(D,a)
C4.5(基于信息增益率)
m a x a G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) E n t ( a ) max_a~~~Gain\_ratio(D,a)=\frac{Gain(D,a)}{Ent(a)} maxa Gain_ratio(D,a)=Ent(a)Gain(D,a)
CART(基于基尼系数)
m i n a G i n i ( D , a ) = ∑ i = 1 m p ( a i ) G i n i ( D i ) G i n i ( D i ) = 1 − ∑ k ∈ D i p ( k ) 2 min_a~~~~~Gini(D,a)=\sum_{i=1}^mp(a_i)Gini(D_i)\\ Gini(D_i)=1-\sum_{k\in D_i} p(k)^2 mina Gini(D,a)=i=1∑mp(ai)Gini(Di)Gini(Di)=1−k∈Di∑p(k)2
终止分支的条件
- Gain <= threshold
- 该节点上所有样本的类别相同
- 所有特征都已经用过了
注意
- 信息增益不会<0
- 叶子节点不一定确保只有一个类别