信息论基础
每获得一部分信息就消除一部分不确定性,从这个意义上来说,信息是对不确定性的消除。概率论中概率就可以描述随机事件的不确定性,因此,信息一定是一个概率的函数。
信息的定义
香农给出的信息的定义:事物运动状态或存在方式不确定性的描述。
使用概率来度量不确定性的大小,则不确定性大小 f ( p ( x ) ) f(p(x)) f(p(x)) ( p ( x ) p(x) p(x) 表示事件发生的概率)应该满足以下 3 个条件:
- f ( 1 ) = 0 f(1) = 0 f(1)=0。必然事件的不确定性为 0。
- f ( p ( x ) ) f(p(x)) f(p(x)) 是单调递减函数。概率越大,不确定性越小。
- 独立可加性。 f ( p ( x ) p ( y ) ) = f ( p ( x ) ) + f ( p ( y ) ) f(p(x)p(y)) = f(p(x)) + f(p(y)) f(p(x)p(y))=f(p(x))+f(p(y))
概率的倒数取对数即可满足以上条件,这就是香农的自信息量的定义:
I ( x i ) = l o g 1 p ( x i ) I(x_i) = log{\frac{1}{p(x_i)}} I(xi)=logp(xi)1
p ( x i ) {p(x_i)} p(xi) 表示信源选择符号 x i x_i xi 作为发送消息的概率。以 2 为底时,单位为 bit。以 e e e 为底时,单位为 nat。以 10 为底时,单位为 Hart。
那么针对一个系统而言,取各随机事件自信息的统计平均来代表其总体信息量。离散随机变量
X
X
X 的信息熵
H
(
X
)
H(X)
H(X) 定义为:
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
H(X) = -\sum_{x \in X}{p(x) \log p(x)}
H(X)=−x∈X∑p(x)logp(x)
将其推广到多个随机变量,则一对离散随机变量
(
X
,
Y
)
(X,Y)
(X,Y) 的联合熵定义为:
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
H(X,Y) = - \sum_{x \in X}\sum_{y \in Y}{p(x,y)\log{p(x,y)}}
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
并且
H
(
X
,
Y
)
≤
H
(
X
)
+
H
(
Y
)
H(X,Y) \le H(X) + H(Y)
H(X,Y)≤H(X)+H(Y),当
X
X
X 与
Y
Y
Y 独立时等号成立。当
X
X
X 与
Y
Y
Y 相关时,观察
X
X
X 就可以消除
Y
Y
Y 的一部分不确定性。
离散随机变量
X
X
X 与
Y
Y
Y 的互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y) 定义为:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y) = H(X) - H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
可以理解为:已知
Y
Y
Y,对于
X
X
X 的不确定性减少程度。也可以扩展成:
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X;Y) = H(X) + H(Y) - H(X,Y) \\ = \sum_{x \in X}\sum_{y \in Y}{p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}}
I(X;Y)=H(X)+H(Y)−H(X,Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)
当
X
X
X 与
Y
Y
Y 独立时,
I
(
X
;
Y
)
=
0
I(X;Y) = 0
I(X;Y)=0;当
X
X
X 与
Y
Y
Y 一一映射时,
I
(
X
;
Y
)
=
H
(
X
)
=
H
(
Y
)
I(X;Y) = H(X) = H(Y)
I(X;Y)=H(X)=H(Y)。
互信息的基本性质:
- 对称性: I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X)
- 非负性: I ( X ; Y ) ≥ 0 I(X;Y) \ge 0 I(X;Y)≥0
- 极值性: I ( X ; Y ) ≤ m i n ( H ( X ) , H ( Y ) ) I(X;Y) \le min(H(X),H(Y)) I(X;Y)≤min(H(X),H(Y))
- 可加性: I ( X 1 , X 2 ⋯ X n ; Y ) = ∑ i = 1 n I ( I i ; Y ) I(X_1,X_2 \cdots X_n;Y) = \sum_{i=1}^{n}I(I_i;Y) I(X1,X2⋯Xn;Y)=∑i=1nI(Ii;Y)
率失真理论的基本概念
失真函数在输入输出联合空间中取统计平均:
D
=
∑
x
i
,
x
^
j
p
(
x
i
)
q
(
x
^
j
∣
x
i
)
d
(
x
i
,
x
^
j
)
D = \sum_{x_i,\hat{x}_j}p(x_i)q(\hat{x}_j|x_i)d(x_i,\hat{x}_j)
D=xi,x^j∑p(xi)q(x^j∣xi)d(xi,x^j)
表示给定信源分布和转移概率分布时,信道传输失真总体的平均度量。
针对信源
X
X
X 和失真度量
d
(
x
,
x
^
)
d(x,\hat{x})
d(x,x^),信息的率失真函数
R
(
D
)
R(D)
R(D) 定义为:
R
(
D
)
=
m
i
n
∑
x
,
x
^
p
(
x
)
q
(
x
^
∣
x
)
d
(
x
,
x
^
)
≤
D
I
(
X
;
X
^
)
R(D) = \mathop{min}\limits_{\sum_{x,\hat{x}} p(x) q(\hat{x}|x) d(x,\hat{x}) \le D}I(X;\hat{X})
R(D)=∑x,x^p(x)q(x^∣x)d(x,x^)≤DminI(X;X^)
在失真
D
D
D 的限制下,最小化输入输出的互信息。
高斯信源的率失真函数
在均方失真度量下,高斯信源的率失真函数是:
R
(
D
)
=
{
1
2
log
σ
2
D
,
0
≤
D
≤
σ
2
0
,
D
>
σ
2
R(D)=\left\{ \begin{aligned} \frac{1}{2} \log{\frac{\sigma^2}{D}} , 0 \le D \le \sigma^2\\ 0 ,\ \ \ \ \ \ \ \ \ \ \ \ D > \sigma^2 \end{aligned} \right.
R(D)=⎩⎪⎨⎪⎧21logDσ2,0≤D≤σ20, D>σ2
以下是证明过程:
假设一个随机变量
X
X
X 服从高斯分布,则其概率密度函数为:
f ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp({-\frac{(x-\mu)^2}{2\sigma^2}}) f(x)=2πσ1exp(−2σ2(x−μ)2)
对于一个连续的随机变量,其微分熵为:
h ( X ) = − ∫ − ∞ + ∞ p ( x ) log p ( x ) d x h(X) = -\int_{-\infty}^{+\infin} p(x)\log{p(x)} dx h(X)=−∫−∞+∞p(x)logp(x)dx
则: X X X 的微分熵为:
h ( X ) = − ∫ − ∞ + ∞ p ( x ) log 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) d x = − ∫ − ∞ + ∞ p ( x ) log 1 2 π σ d x − ∫ − ∞ + ∞ p ( x ) log exp ( − ( x − μ ) 2 2 σ 2 ) d x = − ∫ − ∞ + ∞ p ( x ) log 1 2 π σ d x + log e ∫ − ∞ + ∞ p ( x ) ( x − μ ) 2 2 σ 2 d x = − log 1 2 π σ 2 π σ ∫ − ∞ + ∞ 2 σ exp ( − ( ( x − μ ) 2 σ ) 2 ) d ( x − μ 2 σ ) + log e 2 π σ ∫ − ∞ + ∞ exp ( − ( x − μ ) 2 2 σ 2 ) ( x − μ ) 2 2 σ 2 d x = log ( 2 π σ ) + log e 2 π σ ∫ − ∞ + ∞ − ( x − μ ) 2 d ( exp ( − ( x − μ ) 2 2 σ 2 ) ) = log ( 2 π σ ) − 1 2 log e π ∫ − ∞ + ∞ ( x − μ ) 2 σ d ( exp ( − ( x − μ ) 2 2 σ 2 ) ) = log ( 2 π σ ) − log e 2 π ( 0 − ∫ − ∞ + ∞ exp ( − ( x − μ ) 2 σ ) d ( x − μ 2 σ ) ) = log ( 2 π σ ) + log e 2 = 1 2 log ( 2 π e σ 2 ) h(X) = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})} dx \\ = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}} dx - \int_{-\infty}^{+\infin} p(x)\log{\exp(-\frac{(x-\mu)^2}{2\sigma^2})} dx \\ = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}} dx + \log{e}\int_{-\infty}^{+\infin} p(x)\frac{(x-\mu)^2}{2\sigma^2} dx \\ = -\frac{\log{\frac{1}{\sqrt{2\pi}\sigma}}}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin}{\sqrt{2}\sigma\exp(-(\frac{(x-\mu)}{\sqrt{2}\sigma})^2)} d(\frac{x-\mu}{\sqrt{2}\sigma}) + \frac{\log e}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin} \exp(-\frac{(x-\mu)^2}{2\sigma^2})\frac{(x-\mu)^2}{2\sigma^2} dx\\ = \log(\sqrt{2\pi}\sigma) + \frac{\log e}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin} - \frac{(x-\mu)}{2} d(\exp(-\frac{(x-\mu)^2}{2\sigma^2})) \\ = \log(\sqrt{2\pi}\sigma) - \frac{1}{2} \frac{\log e}{\sqrt{\pi}} \int_{-\infty}^{+\infin} \frac{(x-\mu)}{\sqrt{2}\sigma} d(\exp(-\frac{(x-\mu)^2}{2\sigma^2})) \\ = \log(\sqrt{2\pi}\sigma) - \frac{\log e}{2\sqrt{\pi}} (0 - \int_{-\infty}^{+\infin} \exp(-\frac{(x-\mu)^2}{\sigma}) d(\frac{x-\mu}{\sqrt{2}\sigma})) \\ = \log(\sqrt{2\pi}\sigma) + \frac{\log e}{2} \\ = \frac{1}{2}\log(2\pi e\sigma^2) h(X)=−∫−∞+∞p(x)log2πσ1exp(−2σ2(x−μ)2)dx=−∫−∞+∞p(x)log2πσ1dx−∫−∞+∞p(x)logexp(−2σ2(x−μ)2)dx=−∫−∞+∞p(x)log2πσ1dx+loge∫−∞+∞p(x)2σ2(x−μ)2dx=−2πσlog2πσ1∫−∞+∞2σexp(−(2σ(x−μ))2)d(2σx−μ)+2πσloge∫−∞+∞exp(−2σ2(x−μ)2)2σ2(x−μ)2dx=log(2πσ)+2πσloge∫−∞+∞−2(x−μ)d(exp(−2σ2(x−μ)2))=log(2πσ)−21πloge∫−∞+∞2σ(x−μ)d(exp(−2σ2(x−μ)2))=log(2πσ)−2πloge(0−∫−∞+∞exp(−σ(x−μ)2)d(2σx−μ))=log(2πσ)+2loge=21log(2πeσ2)
注: ∫ − ∞ + ∞ exp ( − x 2 ) d x = π \int_{-\infty}^{+\infin} \exp(-x^2) dx = \sqrt{\pi} ∫−∞+∞exp(−x2)dx=π。
因此,互信息
I
(
X
;
X
^
)
I(X;\hat{X})
I(X;X^):
I
(
X
;
X
^
)
=
h
(
X
)
−
h
(
X
∣
X
^
)
=
1
2
log
(
2
π
e
σ
2
)
−
h
(
X
−
X
^
∣
X
^
)
(
X
^
已
知
,
所
以
减
去
X
^
不
影
响
h
(
X
∣
X
^
)
的
值
)
≥
1
2
log
(
2
π
e
σ
2
)
−
h
(
X
−
X
^
)
≥
1
2
log
(
2
π
e
σ
2
)
−
h
(
N
(
0
,
E
(
X
−
X
^
)
2
)
)
(
h
(
X
−
X
^
)
与
h
(
N
(
0
,
E
(
X
−
X
^
)
2
)
)
具
有
相
同
方
差
)
≥
1
2
log
(
2
π
e
σ
2
)
−
1
2
log
(
2
π
e
D
)
(
(
X
−
X
^
)
2
表
示
平
方
意
义
下
的
失
真
,
必
须
小
于
D
)
=
1
2
log
σ
2
D
I(X;\hat{X}) = h(X) - h(X|\hat{X}) \\ = \frac{1}{2} \log(2\pi e\sigma^2) - h(X-\hat{X}|\hat{X})(\hat{X}已知,所以减去\hat{X}不影响h(X|\hat{X})的值) \\ \ge \frac{1}{2} \log(2\pi e\sigma^2) - h(X-\hat{X}) \\ \ge \frac{1}{2} \log(2\pi e\sigma^2) - h(N(0,E(X-\hat{X})^2)) (h(X-\hat{X})与h(N(0,E(X-\hat{X})^2))具有相同方差)\\ \ge \frac{1}{2} \log(2\pi e\sigma^2) - \frac{1}{2} \log(2\pi eD) ((X-\hat{X})^2表示平方意义下的失真,必须小于D)\\ =\frac{1}{2}\log{\frac{\sigma^2}{D}}
I(X;X^)=h(X)−h(X∣X^)=21log(2πeσ2)−h(X−X^∣X^)(X^已知,所以减去X^不影响h(X∣X^)的值)≥21log(2πeσ2)−h(X−X^)≥21log(2πeσ2)−h(N(0,E(X−X^)2))(h(X−X^)与h(N(0,E(X−X^)2))具有相同方差)≥21log(2πeσ2)−21log(2πeD)((X−X^)2表示平方意义下的失真,必须小于D)=21logDσ2