熵(entropy)是表示随机变量不确定性的度量.设X是一个取有限个值的离散随机变量,其概率分布为
P
(
χ
=
x
i
)
=
p
i
,
i
=
1
,
2
,
…
,
n
P(\chi = x_i) = p_i, i = 1, 2, \dots, n
P(χ=xi)=pi,i=1,2,…,n则随机变量X的熵定义为
H
(
χ
)
=
−
∑
i
=
1
n
p
i
log
p
i
H(\chi) = -\sum_{i=1}^n p_i\log{p_i}
H(χ)=−i=1∑npilogpi当
p
i
=
0
p_i=0
pi=0时,定义
0
log
0
=
0
0\log{0}=0
0log0=0通常上式中对数以2为底或者以e为底.
熵只依赖于X的分布,与X的取值无关,X的熵也记作
H
(
p
)
=
−
∑
i
=
1
n
p
i
log
p
i
H(p)=-\sum_{i=1}^np_i\log{p_i}
H(p)=−i=1∑npilogpi有取值范围
0
⩽
H
(
P
)
⩽
log
n
0\leqslant{H(P)\leqslant{\log{n}}}
0⩽H(P)⩽logn
∵ 0 ⩽ p i ⩽ 1 且 对 数 的 底 数 大 于 1 , ∴ log p i ⩽ 0 , ∴ 0 ⩽ H ( p ) \because0\leqslant{p_i\leqslant{1}}且对数的底数大于1,\space\space\space\space\therefore\log{p_i}\leqslant{0},\space\space\space\therefore0\leqslant{H(p)} ∵0⩽pi⩽1且对数的底数大于1, ∴logpi⩽0, ∴0⩽H(p) 当 均 匀 分 布 时 , 熵 值 最 大 , 由 于 均 匀 分 布 时 , 限 定 越 小 , 不 确 定 性 越 大 , 熵 取 最 大 值 . 当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值. 当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值. 取 p i = 1 n , H ( p ) = log n , 综 上 , 有 0 ⩽ H ( P ) ⩽ log n □ 取p_i={1\over{n}},H(p)=\log{n},综上,有0\leqslant{H(P)\leqslant{\log{n}}}\space\space\space\space\square 取pi=n1,H(p)=logn,综上,有0⩽H(P)⩽logn □熵值最大的取值是根据熵的定义得到的.
参考:
《统计学习方法》,李航,p60.