Meachine Leaning
决策树
-
决策树可以看作时if-then规则的集合,还可以看作给定特征条件下类的条件概率分布。
-
决策树学习包括三个步骤:特征选择,决策树生成,决策树剪枝。
-
决策树损失函数时正则化的极大似然函数,该损失函数下选择最优决策树是NP完全问题。通常采用启发时方法近似求解。
-
决策树生成算法:
- ID3:使用信息增益作为特征选择方法
G ( D , A ) = H ( D ) − H ( D ∣ A ) G(D,A)=H(D)-H(D|A) G(D,A)=H(D)−H(D∣A)
- C4.5:使用信息增益比作为特征选择方法
G R ( D , A ) = G ( D , A ) H A ( D ) H A ( D ) = − ∑ i n ∣ D i ∣ D l o g ( ∣ D i ∣ D ) G_R(D,A)=\frac{G(D,A)}{H_A(D)}\\ H_A(D)=-\sum_i^n\frac{|D_i|}{D}log(\frac{|D_i|}{D}) GR(D,A)=HA(D)G(D,A)HA(D)=−i∑nD∣Di∣log(D∣Di∣)
- CART:使用基尼指数作为特征选择方法。生成的是一颗二叉树
G i n i ( p ) = ∑ ( k = 1 ) K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(p)=\sum(k=1)^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2 Gini(p)=∑(k=1)Kpk(1−pk)=1−k=1∑Kpk2
-
决策树的剪枝:
- 预剪枝:到一定深度就不再生成
- 后剪枝:从下向上进行剪枝。如何剪枝后正则化的极大似然函数损失下降,则剪枝。损失函数:
L o s s ( T ) = ∑ t = 1 ∣ T ∣ N t H t ( T ) + α ∣ T ∣ Loss(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T| Loss(T)=t=1∑∣T∣NtHt(T)+α∣T∣