绪论
多的咱不写,只写干干的
introduction
Uncertainty!不知道的才是信息information
compact code
1、straightforward approach
2、 alternative approach
点对点通讯系统模型
干扰和噪声不可避免
消息是 信息的载体,消息包含信息,是具体的非物理的
信息是有效的data
信号是 适合信道传输的物理量,可携带消息,可以显示或者描述
香农信息定义
香浓信息是对信息不确定性的描述,通信过程是一种消除不确定性以获得信息的过程(?)
什么是不确定性呢?
举个栗子:一夜暴富–概率很低,很难猜到其中包含的信息。所以一旦发生后,其中包含的信息量很大
所以概率越低信息量越大。
随机事件发生以后提供的信息量可以被数据量化,
I = l o g 1 p ( x i ) = − l o g p x i \Iota = log\frac{1}{p(x_i)}=-log{px_i} I=logp(xi)1=−logpxi
这个公式得出来的单位是bit,因为这是香农提出的最佳编码方式,通过求信息量的nbit可得最优编码上限,我就是上限!在实际计算机编码效率中等价于哈夫曼编码,
i.i.d :独立同分布
不可能实践概率为0,信息量为无穷大
必然事件概率为1,信息量为0
随机事件概率和自信息负相关!
香农定律当满足信道大于信源的时候,我的error可以是arbitarily small but not zero,
Mutual information
reliable comunication best is chennel mutual information
进一步完善通讯模型
这里新增了编码器和译码器。
从消息到信号需要一个变换,这个变换需要编码器完成。
信号和干扰信号需要译码器变换成信息,被信宿给接受。
而编码器有信源编码器和信道编码器区别
信源编码器要去冗余,压缩信息,提高相对传输码率
信道编码器加冗余,提高信息传输准确率,抵抗噪声
调制器要把模拟信号转为数字信号
完整系统模型
自己看不做解释了,因为很形象
概率回顾
用矩阵表示概率分布
离散型变量概率分布,写成一维概率分布
联合概率分布矩阵
二维条件概率分布 ,每一行相加为 1
p
(
x
,
y
j
)
∑
i
=
1
n
p
(
x
i
,
y
j
)
=
p
(
x
,
y
j
)
p
(
y
j
)
\frac{p(x,y_j)}{\sum_{i=1}^{n}p(x_i,y_j)}=\frac{p(x,y_j)}{p(y_j)}
∑i=1np(xi,yj)p(x,yj)=p(yj)p(x,yj)
全概率公式在信息论中的一个表示
P ( X ) = P ( Y ) P ( X ∣ Y ) ⟹ p ( x i ) = ∑ j = 1 n p ( y j ) p ( x i ∣ y j ) P(X) = P(Y)P(X | Y) \Longrightarrow p(x_i) = \sum_{j=1}^{n}p(y_j)p(x_i|y_j) P(X)=P(Y)P(X∣Y)⟹p(xi)=j=1∑np(yj)p(xi∣yj)
离散信源及其信息测度
信源的数学模型及其分类
信源是消息来源
离散信息是离散随机变量,其所有情况概率相加为1
连续信息是连续随机变量,其概率密度函数积分为1
连续的一系列变量成为随机矢量
X
⃗
=
(
X
1
X
2
X
3
⋯
X
n
)
\vec{X} = (X_1X_2X_3\cdots X_n)
X=(X1X2X3⋯Xn)
离散 平稳 记忆 随机过程 概念
离散好说
平稳是指随机变量的各维概率分布都与时间起点无关
无记忆是指变量之间相互独立
N次扩展是值将信源编码成N位0,1符号,即将信源输出序列看成一组一组输出,总共N组输出
举个例子,X变量有0,1两种情况,做2次扩展就有
2
2
2^2
22个情况,即00,01,10,11
所以对X做N次扩展就有
2
N
2^N
2N种情况,原本每种情况变成了N个一组的序列
离散有记忆信源指心愿符号之间彼此依存、互不独立,可以用联合概率分布和条件概率分布来描述这种关联性。
其中,离散非平稳有记忆信源 称为 马尔可夫信源,
随机过程X(t)是什么呢,这他喵的还是一门重要的课,写完这篇要写下一篇了靠!,设有一个时间过程X(t),若对每一个时刻 t j t_j tj,X( t j t_j tj)是一个随机变量,那他就是随机过程。说大白话就是在随机变量上引入了时间的概念。
自信息与信息熵
随机事件的自信息是指消息本身包含的信息量,有其不确定性所决定
自信息的定义为,公式中对数底数为2,但是实际往往省略2
I
(
x
i
)
=
l
o
o
g
1
p
(
x
i
)
=
−
l
o
g
p
(
x
i
)
\Iota(x_i) = loog\frac{1}{p(x_i)} = - logp(x_i)
I(xi)=loogp(xi)1=−logp(xi)
这是一个确切的物理量哦,可不是定义概念哦,人家有单位是bit
人家还可以变换进制,r进制变换公式为
I
r
(
x
i
)
=
I
(
x
i
)
l
o
g
r
\Iota_r(x_i)=\frac{\Iota(x_i)}{log r}
Ir(xi)=logrI(xi)
由此引出联合自信息
I
(
x
i
y
j
)
=
−
l
o
g
p
(
x
i
y
j
)
\Iota(x_iy_j)=-logp(x_iy_j)
I(xiyj)=−logp(xiyj)
条件自信息
I
(
x
i
∣
y
j
)
=
−
l
o
g
(
x
i
∣
y
j
)
\Iota(x_i|y_j)=-log(x_i|y_j)
I(xi∣yj)=−log(xi∣yj)
二者的关系
I
(
x
i
y
j
)
=
−
l
o
g
p
(
x
i
y
j
)
=
−
l
o
g
p
(
y
j
)
p
(
x
i
∣
y
j
)
=
I
(
y
i
)
+
I
(
x
i
∣
y
j
)
\Iota(x_iy_j)=-logp(x_iy_j) = -logp(y_j)p(x_i|y_j)= \Iota(y_i)+\Iota(x_i|y_j)
I(xiyj)=−logp(xiyj)=−logp(yj)p(xi∣yj)=I(yi)+I(xi∣yj)
适应一种表述:不确定性就是概率反应的信息量
下面这个例题太好了
信息熵
信息熵是信源中各个消息包含自信息的数学期望,表征信源整体的不确定度,也成为信源平均自信息。
定义式:人家也是一个物理量,物理量都成双成对了,我还没有比翼双飞
H
(
X
)
=
E
[
I
(
x
i
)
]
=
∑
i
=
1
n
p
(
x
i
)
I
(
x
i
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
p
(
x
i
)
H(X)=E[I(x_i)] = \sum_{i=1}^{n}p(x_i)I(x_i) = -\sum_{i=1}^{n}p(x_i)logp(x_i)
H(X)=E[I(xi)]=i=1∑np(xi)I(xi)=−i=1∑np(xi)logp(xi)
信息包含不确定度,那信息熵包含的是信源整体的不确定度
最好的压缩方法,他的source entropy should be 1,meaning it can not be compress again.
概率适量和概率分布表可以画等号
概率矢量中各概率分量的次序变更熵保持不变,熵只与变量的总体结构有关与信源总体特征有关,只是客观的数学度量。
非负性,即信息熵总大于等于0,仅对离散信源成立,连续信源可以为负。
在概率空间中增加一个极小概率事件整体信源熵不变
条件熵 entropy
H
(
X
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
H(XY) = H(X) + H(Y|X) = H(Y)+ H(X|Y)
H(XY)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
信号处于均匀分布时熵最大。