信息论与编码
统计信息的概念
香农信息是事物运动状态或存在方式的不确定性的描述
把消息变成适合信道传输的物理量,这种物理量就称为信号
通信的目的:实现信息的保真传输
DMS(Discrete memoryless source)离散无记忆信源
自信息(self information)表示信息量的大小
自信息与事件不确定性相关
log2 :bit
loge :nat
log10 :hart
联合自信息
条件自信息
离散信源
1.信源的数学模型与分类
概率空间(离散信源):
X为样本空间,P(x)为概率函数,P(x)和为1,P大写
离散信源分为离散无记忆信源(DMS)和离散有记忆信源
离散无记忆信源(DMS):一维概率分布
离散有记忆信源:N维概率分布
概率空间(连续信源):
X为样本空间,p(x)为概率函数,p(x)积分为1,p小写
连续信源分为时间离散的连续源和随机波形源
随机波形源可以通过采样变成时间离散的连续源
2.信息熵
信源X的信息熵:信源输出各消息的自信息量I(ai)的数学期望
含义:
(A)熵值大小表示平均不确定性大小
(B)平均每个信源符号所携带的信息量
单位:bit/sig,nat/sig,hart/sig
对于某给定信源,信息熵H(X)的取值是固定的
3.联合熵与条件熵
定义:联合集XY上,联合自信息的平均值定义为联合熵,即:
N次扩展信源的数学模型
定义:联合集XY上,条件自信息的平均值定义为条件熵,即:
二维平稳信源熵
4.熵的基本性质
1.熵的链式法则
若X和Y统计独立,则
N维联合信源熵的链式法则为
2.非负性、确定性(确知信源熵为0)、对称性(熵只与随机变量的总体结构有关)、扩展性(极小概率事件对熵几乎无影响)
3.极值性
当且仅当P(X1) = P(X2) = … = P(Xn) = 1/q,取等号
4.熵的独立界
当且仅当X与Y相互独立时等号成立
5.信源的相关性和剩余度
信源剩余度定义:
设某q元信源的极限熵H∞(实际熵),则定义:
信源实际熵H∞与理想熵H0相差越大,信源的剩余度就越大,信源的效率也越低
关于信源剩余度的思考:
1.为提高信息传输效率,总希望减少剩余度
提高信源输出信息的效率:信源压缩
2.为提高信息传输可靠性,需要一定的剩余度
提高信息传输可靠性:信道编码
数据压缩的基本路径:从H∞到H0,从信源有记忆到信源无记忆,符号相关性减弱
预测编码:根据某种模型,利用以前的一个或几个样值,对当前的样本值进行预测,将样本实际值和预测值之差进行编码
结论1:
有记忆信源的冗余度寓于信源符号间的相关性中。去除它们之间的相关性,使之成为或几乎成为不相关的信源,其熵将增大
结论2:
离散无记忆信源的冗余度寓于符号概率的非均匀分布中。改变原来信源的概率分布,是指成为或接近等概率分布的信源,其熵将增大
6.离散信道
1.信道模型三要素
输入->信道->输出
P(y|x)信道转移概率
BSC:二元对称信道
BEC:二元删除信道
2.平均互信息
信道疑义度(损失熵):
含义:收到Y后关于X的尚存的平均不确定性
性质:
平均互信息:
含义:平均从Y获得的关于X的信息量(又称信道的信息传输率R)
互信息:
xy小写,表示由随机事件y中获得具体关于x的信息,可正可负
关系
平均互信息的性质
1.非负性
说明:通过消息的传递可获得信息
当I(X;Y) = 0
全损信道:
2.极值性
说明:通过传输获得的信息量不大于提供的信息量
当I(X;Y) = H(X)
无损信道:
3.对称性
4.凸状性
定理:对于固定信道,平均互信息I(X;Y)是信源概率分布P(x)的 ⋂ ⋂ 型凸函数
定理:对于固定信源分布,平均互信息I(X;Y)是信道传递概率P(y|x)的 ⋃ ⋃ 型凸函数
平均互信息与信源和信道相关
7.信道容量
信道容量的定义:
\[
C = ^{\max}{P(x)}{I(X;Y)} = I(X;Y)|{P(x) - P’(x)}
\]
C是给定的信道的最大的信息传输率
最佳输入分布时,I = C
二元对称信道BSC, C=1−H(p) C = 1 − H ( p )
无噪信道:P(y|x) = 0 或 1,I(X;Y) = H(Y)
最佳输入:使P(y) = 1s 1 s (输出等概)的输入分布
无损信道:P(x|y) = 0 或 1,I(X;Y) = H(X)
r为信道输入符号数目
二元删除信道BEC, C=max(1−q)H(w)=1−q C = m a x ( 1 − q ) H ( w ) = 1 − q ,当w = 12 1 2 时,取最大值
离散对称信道的信道容量
1.对称信道的定义:若一个离散无记忆信道的信道矩阵中,每一行(或列)都是其他行(或列)的同一组元素的不同排列,则称此信道为离散对称信道
强对称信道(均匀信道)定义:若输入符号和输出符号个数相同,等于r,且信道矩阵为:
2.对称信道的性质
噪声熵 H(Y|X)=H(p′1...p′s) H ( Y | X ) = H ( p 1 ′ . . . p s ′ )
当P(x)等概率分布时,输出也是等概率分布
平均互信息: I(X;Y)=H(Y)−H(Y|X)=H(Y)−H(p′1...p′s) I ( X ; Y ) = H ( Y ) − H ( Y | X ) = H ( Y ) − H ( p 1 ′ . . . p s ′ )
信道容量: C=maxI(X;Y)=maxH(Y)−H(p′1...p′s)=logs−H(p′1...p′s) C = m a x I ( X ; Y ) = m a x H ( Y ) − H ( p 1 ′ . . . p s ′ ) = l o g s − H ( p 1 ′ . . . p s ′ )
最佳输入: p(x)=1r p ( x ) = 1 r
并非所有信道,有p(y)等概
对均匀信道
C=logr−H(1−p,pr−1,...,pr−1)=logr−plog(r−1)−H(p) C = log r − H ( 1 − p , p r − 1 , . . . , p r − 1 ) = log r − p log ( r − 1 ) − H ( p )
8.对称密钥密码
- 加密解密算法公开
- ke=kd k e = k d (或相互容易推出)
- 加密算法足够安全,仅依靠密文不可能译出明文
- 安全性依赖于密钥的安全性,而不是算法安全性
- 算法符号描述: Ek(M)=C,Dk(C)=M E k ( M ) = C , D k ( C ) = M
实现的要求:
- Diffusion(弥散):密文没有统计特征,明文一位影响密文的多位,密钥的一位影响密文的多位
- Confusion(混淆):明文与密文、密钥与密文的依赖关系充分复杂
- 实现混淆和弥散的基本方法:替代和置换
9.一般离散信道的信道容量
- 由 I(x;Y) I ( x ; Y ) 求C
一般离散信道的平均互信息I(X;Y)达到极大值(即等于信道容量)的充要条件是输入概率分布 Pi P i 满足:
(a) I(xi;Y)=C对所有xi其Pi≠0 I ( x i ; Y ) = C 对 所 有 x i 其 P i ≠ 0
(b) I(xi;Y)≤C对所有xi其Pi=0 I ( x i ; Y ) ≤ C 对 所 有 x i 其 P i = 0
最佳输入不唯一
10.波形信源与波形信道
1.连续性信源的熵
信源X的相对熵(差熵):
2.相对熵
3.连续性信源熵的性质
(a)链式法则和独立界
当X、Y独立时,h(XY) = h(X) + h(Y)
(b)可为负
连续信源
x∈[a,b]
x
∈
[
a
,
b
]
均匀分布,熵为:
若b-a<1 ,则h(X) < 0
(c)变换性
坐标变换为线性变换,即:
yi=∑bijxj
y
i
=
∑
b
i
j
x
j
,则
∣J∣
∣
J
∣
=
∣∣bij∣∣
∣
∣
b
i
j
∣
∣
,
有:
h(Y)=h(X)+log∣∣bij∣∣
h
(
Y
)
=
h
(
X
)
+
log
∣∣
b
i
j
∣
∣
(d)凸状性
h(X)为p(x)的上凸函数,对某种p(x)的分布,h(X)可达到最大值