信息论研究问题
- 信源编码
数据压缩极限 - 信道编码
信道容量极限
主要以香农理论为主
信息
消除不确定性
信息度量
不确定性消除程度
不确定的程度于事件概率相关
(信息量是概率的单调递减函数)
自信息量
I
(
x
)
=
−
l
o
g
(
p
(
x
)
)
I(x)=-log(p(x))
I(x)=−log(p(x))
其中
p
(
x
i
)
>
p
(
x
j
)
→
I
(
x
i
)
<
I
(
x
j
)
I
(
0
)
=
∞
I
(
1
)
=
0
p(x_{i})>p(x_{j})\rightarrow I(x_{i})<I(x_{j})\\I(0)=∞\\I(1)=0
p(xi)>p(xj)→I(xi)<I(xj)I(0)=∞I(1)=0
对统计独立事件
I
(
x
i
,
x
j
)
=
I
(
x
i
)
+
I
(
x
j
)
I(x_{i},x_{j})=I(x_{i})+I(x_{j})
I(xi,xj)=I(xi)+I(xj)
对数的底为
- 2 量纲为bit
- e 量纲为nat
熵
H
(
X
)
=
−
∑
p
(
x
)
l
o
g
(
p
(
x
)
)
H(X)=-\sum p(x)log(p(x))
H(X)=−∑p(x)log(p(x))
是平均不确定性,平均信息量
H
(
X
)
=
E
(
I
(
X
)
)
H(X)=E(I(X))
H(X)=E(I(X))
规定
0
l
o
g
0
=
0
0log0=0
0log0=0
零概率事件不影响熵
熵的性质
- 非负
当事件确定,熵为0 - 事件给定,熵为定值
- 离散熵有限
- 仅依赖于概率分布
伯努利分布的熵
联合熵
H ( X , Y ) = − ∑ ∑ p ( x , y ) l o g ( p ( x , y ) ) = − E ( l o g ( p ( X , Y ) ) ) H(X,Y)=-\sum \sum p(x,y)log(p(x,y))\\=-E(log(p(X,Y))) H(X,Y)=−∑∑p(x,y)log(p(x,y))=−E(log(p(X,Y)))
条件熵
H ( Y ∣ X ) = ∑ p ( x ) H ( Y ∣ X = x ) = − ∑ ∑ p ( x , y ) l o g p ( y ∣ x ) = − E ( l o g ( p ( Y ∣ X ) ) ) H(Y|X)=\sum p(x)H(Y|X=x)\\=-\sum \sum p(x,y)logp(y|x)\\ =-E(log(p(Y|X))) H(Y∣X)=∑p(x)H(Y∣X=x)=−∑∑p(x,y)logp(y∣x)=−E(log(p(Y∣X)))
熵的链式法则
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H(X,Y)=H(X)+H(Y|X)
H(X,Y)=H(X)+H(Y∣X)
当X,Y统计独立
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
H(X,Y)=H(X)+H(Y)
H(X,Y)=H(X)+H(Y)
相对熵
D
(
p
∣
∣
q
)
=
∑
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
=
E
p
l
o
g
p
(
X
)
q
(
X
)
D(p||q)=\sum p(x)log\frac {p(x)}{q(x)}\\ =E_{p}log\frac {p(X)}{q(X)}
D(p∣∣q)=∑p(x)logq(x)p(x)=Eplogq(X)p(X)
约定
0
l
o
g
0
0
=
0
;
0
l
o
g
0
q
=
0
;
p
l
o
g
p
0
=
0
0log\frac {0}{0}=0;0log\frac {0}{q}=0;plog\frac {p}{0}=0
0log00=0;0logq0=0;plog0p=0
相对熵性质
- 非负
当且仅当 p = q p=q p=q相对熵为0 - 若有 p ( x ) > 0 , q ( x ) = 0 p(x)>0,q(x)=0 p(x)>0,q(x)=0则有 D ( p ∣ ∣ q ) = ∞ D(p||q)=∞ D(p∣∣q)=∞
- 不是真正的距离
互信息
I
(
X
;
Y
)
=
∑
∑
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
q
(
y
)
=
D
(
p
(
x
,
y
)
∣
∣
p
(
x
)
q
(
y
)
)
=
E
p
(
x
,
y
)
l
o
g
p
(
X
,
Y
)
p
(
X
)
p
(
Y
)
I(X;Y)=\sum \sum p(x,y)log\frac {p(x,y)}{p(x)q(y)}\\ =D(p(x,y)||p(x)q(y))\\ =E_{p(x,y)}log\frac {p(X,Y)}{p(X)p(Y)}
I(X;Y)=∑∑p(x,y)logp(x)q(y)p(x,y)=D(p(x,y)∣∣p(x)q(y))=Ep(x,y)logp(X)p(Y)p(X,Y)
表示给定一个随机变量对另一个随机变量不确定度造成的缩减量
推论
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
凸函数
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
⩽
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
f(λx_{1}+(1-λ)x_{2})\leqslant λf(x_{1})+(1-λ)f(x_{2})
f(λx1+(1−λ)x2)⩽λf(x1)+(1−λ)f(x2)
例如
f
(
x
)
=
x
l
o
g
(
x
)
f(x)=xlog(x)
f(x)=xlog(x)
凹函数
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
⩾
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
f(λx_{1}+(1-λ)x_{2})\geqslant λf(x_{1})+(1-λ)f(x_{2})
f(λx1+(1−λ)x2)⩾λf(x1)+(1−λ)f(x2)
例如
f
(
x
)
=
l
o
g
(
x
)
f(x)=log(x)
f(x)=log(x)
Jensen不等式
f
(
X
)
f(X)
f(X)凸函数,有
E
f
(
X
)
⩾
f
(
E
X
)
Ef(X)\geqslant f(EX)
Ef(X)⩾f(EX)
熵的其他性质
- 极值性
H ( X ) ≤ l o g ∣ χ ∣ H(X)\leq log|\chi | H(X)≤log∣χ∣ - 条件使熵减少
H ( X ∣ Y ) ≤ H ( X ) H(X|Y)\leq H(X) H(X∣Y)≤H(X) - 独立界
H ( X 1 , . . . , X n ) ≤ ∑ H ( X i ) H(X_{1},...,X_{n})\leq \sum H(X_{i}) H(X1,...,Xn)≤∑H(Xi)
马尔可夫链
p ( x , y , z ) = p ( x ) p ( y ∣ x ) p ( z ∣ y ) p(x,y,z)=p(x)p(y|x)p(z|y) p(x,y,z)=p(x)p(y∣x)p(z∣y)
- Y给定,X,Z条件独立
- X->Y->Z蕴含Z->Y->X
数据处理不等式
若X->Y->Z
有
I
(
X
;
Y
)
≥
I
(
X
;
Z
)
I(X;Y)\geq I(X;Z)
I(X;Y)≥I(X;Z)
等号成立条件当且仅当
I
(
X
;
Y
∣
Z
)
=
0
I(X;Y|Z)=0
I(X;Y∣Z)=0
推论
I
(
X
;
Y
∣
Z
)
≤
I
(
X
;
Y
)
I(X;Y|Z)\leq I(X;Y)
I(X;Y∣Z)≤I(X;Y)
费诺不等式
对于
X
→
Y
→
X
^
X\rightarrow Y\rightarrow \hat{X}
X→Y→X^
设
P
e
=
P
r
X
≠
X
^
P_{e}=PrX \neq \hat{X}
Pe=PrX=X^
有
H
(
P
e
)
+
P
e
l
o
g
∣
χ
∣
≥
H
(
X
∣
X
^
)
≥
H
(
X
∣
Y
)
H(P_{e})+P_{e}log|\chi |\geq H(X|\hat{X})\geq H(X|Y)
H(Pe)+Pelog∣χ∣≥H(X∣X^)≥H(X∣Y)
弱化为
1
+
P
e
l
o
g
∣
χ
∣
≥
H
(
X
∣
Y
)
1+P_{e}log|\chi |\geq H(X|Y)
1+Pelog∣χ∣≥H(X∣Y)