熵和信息量
假设我们有一组离散的符号集
{v1,v2,...vm}
{
v
1
,
v
2
,
.
.
.
v
m
}
,每个符号具有相应的出现概率
Pi
P
i
。为了衡量这组符号组成序列的随机性,定义离散分布的熵为:
H=−∑i=1mPilog2Pi(1)
(1)
H
=
−
∑
i
=
1
m
P
i
l
o
g
2
P
i
其中定义 0log0=0 0 l o g 0 = 0 。其中对数的底数为2,这时候熵的单位为“比特”。熵是刻画这些符号不确定性的量。熵的值并不依赖于符号本身,而是依赖于符号出现的概率。给定m个符号,当这些符号出现的概率相同时,对应的熵最大。此时的熵:
H=−∑i=1m1mlog21m=−log21m=log2m(2)
(2)
H
=
−
∑
i
=
1
m
1
m
l
o
g
2
1
m
=
−
l
o
g
2
1
m
=
l
o
g
2
m
对于连续的情况:
H=−∫+∞−∞p(x)lnp(x)dx(3)
(3)
H
=
−
∫
−
∞
+
∞
p
(
x
)
l
n
p
(
x
)
d
x
在所有的连续概率密度函数中,如果均值 μ μ 和方差 σ2 σ 2 都是固定的,则使熵达到最大值的是高斯分布。
高斯分布的概率密度函数为:
p(x)=12π−−√σexp(−(x−μ)22σ2)(4)
(4)
p
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
求高斯分布的熵:
H=−∫+∞−∞p(x)lnp(x)dx=0.5+log2(2π−−√σ)(5)(6)
(5)
H
=
−
∫
−
∞
+
∞
p
(
x
)
l
n
p
(
x
)
d
x
(6)
=
0.5
+
l
o
g
2
(
2
π
σ
)
对于离散随机变量 x x 和任意函数,都有 H(f(x))≤H(x) H ( f ( x ) ) ≤ H ( x ) 。换而言之,对于信号的任何处理都不会增加熵。特别的当 f(x) f ( x ) 是一个常数值函数时,则熵变为0。这个性质对于连续行的随机变量是不成立的。