信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。
但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高。
E
n
t
(
D
)
=
−
∑
k
=
1
∣
γ
∣
p
k
l
o
g
2
p
k
Ent(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k}
Ent(D)=−∑k=1∣γ∣pklog2pk
信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。
信息量的公式表示如下:
h
(
x
)
=
−
l
o
g
2
p
(
x
)
h(x)=-log_2p(x)
h(x)=−log2p(x)
由于概率范围为0-1,因此log2p(x)的范围在负无穷到0,而负号则让信息量变成正数。正好可以得出,一件事情发生的概率越小,信息量越大。
而信息熵则代表了多件不相关的事件发生所产生的信息量之和。
信息增益(information gain) 代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
V
v
=
1
∣
D
v
∣
D
E
n
t
(
D
v
)
Gain(D, a)=Ent(D)-\sum_{V}^{v=1}{\frac{|D^v|}{D}Ent(D^v)}
Gain(D,a)=Ent(D)−∑Vv=1D∣Dv∣Ent(Dv)
信息增益越大,表示信息的不确定度降低的越多,即信息的纯度越高。
在决策树的ID3算法中,追求的是信息熵越小越好,信息增益越大越好。