一、基本概念
1、离散信息源定义
一类信源输出的消息常常以一个个符号的形式,例如文字、字母等,这些符号的取值是有限个的或可数的,这样的信源称为离散信源。
2、离散信息源
{ a 1 , a 2 , ⋯ , a n } \begin{Bmatrix} a_{1},a_{2},\cdots,a_{n} \end{Bmatrix} {a1,a2,⋯,an}
3、单符号离散信源数学模型
{ x p ( x ) } = { a 1 a 2 ⋯ a n p ( a 1 ) p ( a 2 ) ⋯ p ( a n ) } \begin{Bmatrix} x\\ p(x) \end{Bmatrix}= \begin{Bmatrix} a_{1} & a_{2} & \cdots & a_{n}\\ p(a_{1}) & p(a_{2}) & \cdots & p(a_{n}) \end{Bmatrix} {xp(x)}={a1p(a1)a2p(a2)⋯⋯anp(an)}
4、自信息量
若随机事件发生
a
i
a_{i}
ai的概率为
p
(
a
i
)
p(a_{i})
p(ai),那么它的自信息量
I
(
a
i
)
I(a_{i})
I(ai)为
I
(
a
i
)
=
−
log
2
p
(
a
i
)
I(a_{i})=-\log_{2}p(a_{i})
I(ai)=−log2p(ai)
例子
某地二月份天气的概率分布统计如下:
{ X P ( X ) } = { a 1 ( 晴 ) , a 2 ( 阴 ) , a 3 ( 雨 ) , a 4 ( 雪 ) 1 / 2 , 1 / 4 , 1 / 8 , 1 / 8 } \begin{Bmatrix} X\\ P(X) \end{Bmatrix} =\begin{Bmatrix} a_{1}(晴), &a_{2}(阴), &a_{3}(雨), &a_{4}(雪)\\ 1/2, &1/4, &1/8, &1/8 \end{Bmatrix} {XP(X)}={a1(晴),1/2,a2(阴),1/4,a3(雨),1/8,a4(雪)1/8}这四种气候的自信息量分别为 I ( a 1 ) = 1 b i t , I ( a 2 ) = 2 b i t , I ( a 3 ) = 3 b i t , I ( a 4 ) = 3 b i t I(a_{1})=1bit,I(a_{2})=2bit,I(a_{3})=3bit,I(a_{4})=3bit I(a1)=1bit,I(a2)=2bit,I(a3)=3bit,I(a4)=3bit
5、联合自信息量
两个随机事件的离散信息源,其信源模型为
{
X
Y
P
(
X
Y
)
}
=
{
a
1
b
1
⋯
a
1
b
m
a
2
b
1
⋯
a
2
b
m
⋯
a
n
b
1
⋯
a
n
b
m
p
(
a
1
b
1
)
⋯
p
(
a
1
b
m
)
p
(
a
2
b
1
)
⋯
p
(
a
2
b
m
)
⋯
p
(
a
n
b
1
)
⋯
p
(
a
n
b
m
)
}
\begin{Bmatrix} XY\\ P(XY) \end{Bmatrix} =\begin{Bmatrix} a_{1}b_{1} & \cdots & a_{1}b_{m} & a_{2}b_{1} & \cdots & a_{2}b_{m} & \cdots & a_{n}b_{1} & \cdots & a_{n}b_{m}\\ p(a_{1}b_{1}) & \cdots & p(a_{1}b_{m}) & p(a_{2}b_{1}) & \cdots & p(a_{2}b_{m}) & \cdots & p(a_{n}b_{1}) & \cdots & p(a_{n}b_{m}) \end{Bmatrix}
{XYP(XY)}={a1b1p(a1b1)⋯⋯a1bmp(a1bm)a2b1p(a2b1)⋯⋯a2bmp(a2bm)⋯⋯anb1p(anb1)⋯⋯anbmp(anbm)}联合自信息量
I
(
a
i
b
j
)
=
−
log
2
p
(
a
i
b
j
)
I(a_{i}b_{j})=-\log_{2}p(a_{i}b_{j})
I(aibj)=−log2p(aibj)
6、条件自信息量
设
b
j
b_{j}
bj条件下发生
a
i
a_{i}
ai的条件概率为
p
(
a
i
∣
b
j
)
p(a_{i}|b_{j})
p(ai∣bj),那么它的条件自信息量定义为
I
(
a
i
∣
b
j
)
I(a_{i}|b_{j})
I(ai∣bj)
I
(
a
i
∣
b
j
)
=
−
log
2
p
(
a
i
∣
b
j
)
I(a_{i}|b_{j})=-\log_{2}p(a_{i}|b_{j})
I(ai∣bj)=−log2p(ai∣bj)
7、相关公式
I ( a i b j ) = − log 2 p ( a i ) p ( b j ∣ a i ) = I ( a i ) + I ( b j ∣ a i ) I ( a i b j ) = − log 2 p ( b j ) p ( a i ∣ b j ) = I ( b j ) + I ( a i ∣ b j ) I(a_{i}b_{j})=-\log_{2}p(a_{i})p(b_{j}|a_{i})=I(a_{i})+I(b_{j}|a_{i}) \\ I(a_{i}b_{j})=-\log_{2}p(b_{j})p(a_{i}|b_{j})=I(b_{j})+I(a_{i}|b_{j}) I(aibj)=−log2p(ai)p(bj∣ai)=I(ai)+I(bj∣ai)I(aibj)=−log2p(bj)p(ai∣bj)=I(bj)+I(ai∣bj)
二、信源熵
1、信源熵的定义
(1) 信源熵
已知单符号离散无记忆信源的数学模型
{
x
p
(
x
)
}
=
{
a
1
a
2
⋯
a
n
p
(
a
1
)
p
(
a
2
)
⋯
p
(
a
n
)
}
\begin{Bmatrix} x\\ p(x) \end{Bmatrix}= \begin{Bmatrix} a_{1} & a_{2} & \cdots & a_{n}\\ p(a_{1}) & p(a_{2}) & \cdots & p(a_{n}) \end{Bmatrix}
{xp(x)}={a1p(a1)a2p(a2)⋯⋯anp(an)}其中
0
≤
p
(
a
i
)
≤
1
(
i
=
1
,
2
,
⋯
,
n
)
0 \leq p(a_{i}) \leq 1 (i=1,2,\cdots,n)
0≤p(ai)≤1(i=1,2,⋯,n),且
∑
i
=
1
n
p
(
a
i
)
=
1
。
\sum_{i=1}^{n}p(a_{i})=1。
∑i=1np(ai)=1。
我们定义信源各个离散消息的自信息量的数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信源的信息熵,也叫信源熵或香农熵,简称熵,记为
H
(
X
)
H(X)
H(X)
H
(
X
)
=
E
[
I
(
a
i
)
]
=
E
[
log
2
1
p
(
a
i
)
]
=
−
∑
i
=
1
n
p
(
a
i
)
log
2
p
(
a
i
)
H(X)= E[I(a_{i})]=E[\log_{2}{1 \over p(a_{i})}]=-\sum_{i=1}^n{ p(a_{i})\log_{2} p(a_{i})}
H(X)=E[I(ai)]=E[log2p(ai)1]=−i=1∑np(ai)log2p(ai)
例子
再讨论前面的例题,即某地二月份天气的概率分布统计如下:
{ X P ( X ) } = { a 1 ( 晴 ) , a 2 ( 阴 ) , a 3 ( 雨 ) , a 4 ( 雪 ) 1 / 2 , 1 / 4 , 1 / 8 , 1 / 8 } \begin{Bmatrix} X\\ P(X) \end{Bmatrix} =\begin{Bmatrix} a_{1}(晴), &a_{2}(阴), &a_{3}(雨), &a_{4}(雪)\\ 1/2, &1/4, &1/8, &1/8 \end{Bmatrix} {XP(X)}={a1(晴),1/2,a2(阴),1/4,a3(雨),1/8,a4(雪)1/8}该信源的熵为 H ( X ) = − 1 2 log 2 1 2 − 1 4 log 2 1 4 − ( 1 8 log 2 1 8 ) × 2 = 1.75 ( b i t / s i g n ) H(X) = -{1\over 2} \log_{2}{1 \over 2}-{1\over 4} \log_{2}{1 \over 4}-({1\over8} \log_{2}{1 \over 8})\times2=1.75(bit/sign) H(X)=−21log221−41log241−(81log281)×2=1.75(bit/sign)
(2) 条件熵
条件熵是在联合符号集合XY上的条件自信息量的数学期望,在已知随机变量Y的条件下,随机变量X的条件熵
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)定义为
H
(
X
∣
Y
)
=
E
[
I
(
b
j
∣
a
i
)
]
=
−
∑
j
=
1
m
∑
i
=
1
n
p
(
a
i
b
j
)
I
(
a
i
b
j
)
=
∑
j
=
1
m
∑
i
=
1
n
p
(
a
i
b
j
)
log
2
p
(
a
i
∣
b
j
)
H(X|Y)=E[I(b_{j}|a_{i})]=-\sum_{j=1}^{m}\sum_{i=1}^{n}p(a_{i}b_{j})I(a_{i}b_{j})=\sum_{j=1}^{m}\sum_{i=1}^{n}p(a_{i}b_{j})\log_{2}p(a_{i}|b_{j})
H(X∣Y)=E[I(bj∣ai)]=−j=1∑mi=1∑np(aibj)I(aibj)=j=1∑mi=1∑np(aibj)log2p(ai∣bj)