一、熵
熵(entropy)表示随机变量不确定性的度量。
变量
X
X
X的取值
x
i
x_{i}
xi,取这些值的概率为
p
(
x
i
)
p(x_{i})
p(xi)
H
(
p
)
=
−
Σ
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
H(p)=-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))
H(p)=−Σi=1np(xi)log(p(xi))
二、联合熵
根据熵的定义,得到联合熵的表达式:
H
(
X
,
Y
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
(
p
(
x
i
,
y
j
)
)
H(X,Y)=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j}))
H(X,Y)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))
三、条件熵
H(Y|X)
表示在随机变量X确定的情况下,随机变量Y的不确定性
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
(
p
(
x
i
,
y
j
)
)
−
(
−
Σ
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
)
(
1
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
(
p
(
x
i
,
y
j
)
)
−
(
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
(
p
(
x
i
)
)
)
(
2
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
(
l
o
g
(
p
(
x
i
,
y
j
)
)
−
l
o
g
(
p
(
x
i
)
)
)
(
3
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
p
(
x
i
,
y
j
)
p
(
x
i
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
,
y
j
)
l
o
g
p
(
y
j
∣
X
=
x
i
)
=
−
Σ
i
=
1
n
Σ
j
=
1
m
p
(
x
i
)
p
(
y
j
∣
X
=
x
i
)
)
l
o
g
p
(
y
j
∣
X
=
x
i
)
=
−
Σ
i
=
1
n
p
(
x
i
)
Σ
j
=
1
m
p
(
y
j
∣
X
=
x
i
)
)
l
o
g
p
(
y
j
∣
X
=
x
i
)
=
−
Σ
i
=
1
n
p
(
x
i
)
H
(
Y
∣
X
=
x
i
)
\begin{aligned} H(Y|X)&=H(X,Y) - H(X)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))) (1)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i}))) (2)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})(log( p(x_{i},y_{j})) -log( p(x_{i})) ) (3)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log\frac {p(x_{i},y_{j})} {p(x_{i})} \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i}) p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i})\Sigma_{j=1}^{m} p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i}) H(Y|X=x_{i}) \end{aligned}
H(Y∣X)=H(X,Y)−H(X)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1np(xi)log(p(xi)))(1)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1nΣj=1mp(xi,yj)log(p(xi)))(2)=−Σi=1nΣj=1mp(xi,yj)(log(p(xi,yj))−log(p(xi)))(3)=−Σi=1nΣj=1mp(xi,yj)logp(xi)p(xi,yj)=−Σi=1nΣj=1mp(xi,yj)logp(yj∣X=xi)=−Σi=1nΣj=1mp(xi)p(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)Σj=1mp(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)H(Y∣X=xi)
四、信息增益(Information Gain)
信息增益表示得知特征A的信息而使得数据集D信息不确定性减少的程度
g
(
D
,
A
)
=
H
(
D
)
−
H
(
D
∣
A
)
g(D,A) = H(D) - H(D|A)
g(D,A)=H(D)−H(D∣A)
采用信息增益作为判定方法,会倾向于去选择特征取值比较多的特征作为最优特征。那么,选择取值多的特征为甚就不好呢?(用ID作为区分特征,每个特征的属性中的样本少,特征与分类结果间没关系)
五、信息增益比
特征A的信息对数据集D信息增益比表示为特征A给数据集D带来的信息增益与数据集D的经验熵之比
g
R
(
D
,
A
)
=
g
(
D
,
A
)
H
(
D
)
g_{R}(D,A) = \frac{g(D,A)} {H(D)}
gR(D,A)=H(D)g(D,A)
六、ID3算法
选取信息增益最大的特征作为分类特征。
七、C4.5算法
选取信息增益比最大的特征作为分类特征。C4.5生成决策树与ID3相似。
八、决策树剪枝
8.1 决策树损失函数
8.2 决策树剪枝
九、CART算法
回归树使用平方误差最小化准则,分类树使用Gini指数最小化准则
9.1 回归树
9.2 分类树
9.2.1 基尼指数
9.2.2 分类树
参考
[1] 李航 统计学习方法