西瓜书第四章
4.1
1、自信息
I
(
X
)
=
−
l
o
g
b
p
(
x
)
I(X)=-log_b\,p(x)
I(X)=−logbp(x)
信息熵(自信息期望):度量X的不确定性,信息熵越大越不确定。是度量样本集合纯度最常用的一种指标。
H
(
X
)
=
E
[
I
(
X
)
]
=
−
∑
x
p
(
x
)
l
o
g
b
p
(
x
)
H(X)=E[I(X)]=-\sum_{x}{p(x)log_b\,p(x)}
H(X)=E[I(X)]=−x∑p(x)logbp(x)
2、
-
决策树学习的目的是产生一颗泛化能力强,即处理未见示例能力强的决策树,基本流程遵循“分而治之”。
-
4.2
-
信息熵定义:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D)=-\sum_{k=1}^{|y|}p_k\,log_2\,p_k Ent(D)=−k=1∑∣y∣pklog2pk
样本D中第K类样本所占的比例为 P k P_k Pk(k=1,2…|y|)Ent(D)值越小,纯度越高。
-
计算样本划分后所提升的性能称为“信息增益”(information gain)。
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^V{Ent(D^v)} Gain(D,a)=Ent(D)−v=1∑VEnt(Dv)
即为信息熵-条件熵(划分前-划分后)。 -
信息增益越大,意味着使用属性a来进行划分所获得的的“纯度提升”越大。
-
此称为ID3,对取值数目较多的有偏好
-
增益率:
G a i n r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} Gainratio(D,a)=IV(a)Gain(D,a)
其中
I V ( a ) = − ∑ v = 1 V l o g 2 D v D IV(a)=-\sum_{v=1}^{V}log_2\frac{D^v}{D} IV(a)=−v=1∑Vlog2DDv
称为C4.5,对可取值数目较少的属性有所偏好。 -
基尼指数:
CART决策树,将数据划分为a=v和a!=v(所以一定是一颗二叉树)。
G i n i ( D ) = ∑ k = 1 ∣ y ∣ ∑ k ′ ! = k p k p k ′ = ∑ k = 1 ∣ y ∣ p k ( 1 − p k ) = 1 − ∑ k = 1 ∣ y ∣ p k 2 Gini(D)=\sum_{k=1}^{|y|}\sum_{k'!=k}p_kp_{k'} =\sum_{k=1}^{|y|}p_k(1-p_k)=1-\sum_{k=1}^{|y|}p_k^2 Gini(D)=k=1∑∣y∣k′!=k∑pkpk′=k=1∑∣y∣pk(1−pk)=1−k=1∑∣y∣pk2
-
4.3
预剪枝是指在决策树生成过程中,对每个结点在划 分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划 分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.
4.4
我们需解决两个问题: (1) 如何在属性值缺失的情况 进行划分属性选择? (2) 给定划分属性?若样本在该属性上的值缺失,如何对样本进行划分?
(1)对属性表征无缺失值样本所占的比例 P k P_k Pk 表示无缺失值样本中 类所占的比例 , r v r_v rv 则表示无缺失值样本中在属性a上取值 a v a^v av的样本所占 的比例.
中在属性a上取值 a v a^v av的样本所占 的比例.
对问题(2) ,若样本x在划分属性a上的取值己知,则将x划入与其取值对应的子结点,且样本权值在于结点中保持为 w x w_x wx. 若样本x在划分属性a上的取值未知,则将x同时划入所有子结点,且样本权值在与属性值a对应的子结点中调整为 r v ∗ w v r_v*w_v rv∗wv(点乘)。