1. 基于信息增益的方法
1.1. 信息熵
假设
X
X
X是取有限个值
{
x
1
,
x
2
,
⋯
,
x
n
}
\{x_1,x_2,\cdots,x_n\}
{x1,x2,⋯,xn}的随机变量,其概率分布为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
n
(1-1)
P(X=x_i)=p_i, i=1,2,n\tag{1-1}
P(X=xi)=pi,i=1,2,n(1-1)
则随机变量
X
X
X的熵定义为:
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
2
p
i
(1-2)
H(X)=-\sum_{i=1}^{n}p_ilog_2\ p_i\tag{1-2}
H(X)=−i=1∑npilog2 pi(1-2)
熵衡量了随机变量的不确定性,熵越大,随机变量的不确定性越大。利用一定数据计算出的熵,也叫经验熵。
1.2. 条件熵
设有随机变量
(
X
,
Y
)
(X,Y)
(X,Y),其联合概率分布为:
P
(
X
=
x
i
,
Y
=
y
i
)
=
p
i
j
,
i
=
1
,
2
,
⋯
,
n
,
j
=
1
,
2
,
⋯
,
m
(1-3)
P(X=x_i,Y=y_i)=p_{ij},i=1,2,\cdots,n,\ j=1,2,\cdots,m\tag{1-3}
P(X=xi,Y=yi)=pij,i=1,2,⋯,n, j=1,2,⋯,m(1-3)
给定
X
X
X的条件下,Y的条件熵定义为:
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
i
H
(
Y
∣
X
=
x
i
)
(1-4)
H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)\tag{1-4}
H(Y∣X)=i=1∑npiH(Y∣X=xi)(1-4)
其中
p
i
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
⋯
,
n
p_i=P(X=x_i),i=1,2,\cdots,n
pi=P(X=xi),i=1,2,⋯,n
条件熵衡量了已知一个随机变量的条件下,另一个随机变量的不确定性。利用一定数据计算出的条件熵,也叫条件经验熵。
1.3. 信息增益
特征
A
A
A对数据集
D
D
D的信息增益定义为:
g
(
D
,
A
)
=
H
(
D
)
−
H
(
D
∣
A
)
(1-5)
g(D,A)=H(D)-H(D|A)\tag{1-5}
g(D,A)=H(D)−H(D∣A)(1-5)
一般用于分类问题,用于衡量特征
A
A
A对
D
D
D分类问题的不确定性的减少程度。
1.4. 信息增益在分类问题中的作用
记训练数据集为
D
D
D,样本个数为
∣
D
∣
|D|
∣D∣,有
K
K
K个类别:
C
1
,
C
2
,
⋯
,
C
K
C_1,C_2,\cdots,C_K
C1,C2,⋯,CK,
∣
C
k
∣
|C_k|
∣Ck∣为属于类
C
k
C_k
Ck的样本个数。假设特征
A
A
A有
n
n
n个不同的取值
{
a
1
,
a
2
,
⋯
,
a
n
}
\{a_1,a_2,\cdots,a_n\}
{a1,a2,⋯,an},根据这些取值可以将
D
D
D划分为
n
n
n个子集:
D
1
,
D
2
,
⋯
,
D
n
D_1,D_2,\cdots,D_n
D1,D2,⋯,Dn,
∣
D
i
∣
|D_i|
∣Di∣为属于
D
i
D_i
Di的样本个数。记在子集
D
i
D_i
Di中属于类别
C
k
C_k
Ck的样本集合为
D
i
k
D_{ik}
Dik,对应的样本个数为
∣
D
i
k
∣
|D_{ik}|
∣Dik∣.
数据集
D
D
D的经验熵为:
H
(
D
)
=
−
∑
k
=
1
K
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
(1-6)
H(D)=-\sum_{k=1}^{K}\frac{|C_k|}{|D|}log_2\ \frac{|C_k|}{|D|}\tag{1-6}
H(D)=−k=1∑K∣D∣∣Ck∣log2 ∣D∣∣Ck∣(1-6)
给定特征
A
A
A的条件经验熵为:
H
(
D
∣
A
)
=
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
H
(
D
i
)
=
−
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
∑
k
=
1
K
∣
D
i
k
∣
∣
D
i
∣
l
o
g
2
∣
D
i
k
∣
∣
D
i
∣
(1-7)
\begin{aligned} H(D|A)&=\sum_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)\\ &=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}log_2\ \frac{|D_{ik}|}{|D_i|}\\ \end{aligned}\tag{1-7}
H(D∣A)=i=1∑n∣D∣∣Di∣H(Di)=−i=1∑n∣D∣∣Di∣k=1∑K∣Di∣∣Dik∣log2 ∣Di∣∣Dik∣(1-7)
再利用
{
1
−
5
}
\{1-5\}
{1−5}即可计算出信息增益,用于评估特征
A
A
A在分类问题中的作用