文章目录
1.1 信息和信息的测量
1.1.1 什么是信息
信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’:
1) I will be one year older next year. ----> No information
2) I was born in 1993. ----> little information
3) I was born in 1990s. ---->More information
可见,信息量与随机变量可能值的数量相关。随机变量能取到的值越多,代表事件的不确定度越大,包含的信息越多。不确定度越大,信息量越多
1.1.1 信息怎么表示
例如,一个班有30个学生,我们要用一个二进制序列区分他们,需要多少bits?
l o g 2 30 = 4.907 b i t s log_2 30 = 4.907 bits log230=4.907bits
所以至少需要5个bits才能代表每个学生
1.2 信息熵
在通信系统中,信息熵用来表示平均每符号携带多少比特(bit)信息,信息熵的单位是 bit/symbol(比特每符号)。其背景如下:
我们需要把一个信源符号,转化成一个0-1的二进制比特形式,那么需要多少个二进制比特位,才能表达这个通信符号的所有信息呢?
上文说到,信息代表不确定性,与事件的概率相关。那么假设一个信源有5种可能的符号,记为
x
1
,
x
2
,
x
3
,
x
4
,
x
5
x_1,x_2,x_3,x_4,x_5
x1,x2,x3,x4,x5, 并且每个符号出现的概率分别为
P
(
x
1
)
,
P
(
x
2
)
,
P
(
x
3
)
,
P
(
x
4
)
,
P
(
x
5
)
P(x_1), P(x_2),P(x_3),P(x_4),P(x_5)
P(x1),P(x2),P(x3),P(x4),P(x5),
所以熵(平均每比特携带的信息量)为:
H
(
X
)
=
E
[
l
o
g
2
P
(
X
)
−
1
]
=
∑
i
=
1
5
P
(
x
i
)
∗
l
o
g
2
P
(
x
i
)
−
1
H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1}
H(X)=E[log2P(X)−1]=∑i=15P(xi)∗log2P(xi)−1
1.3 条件熵和联合熵
联合熵上与联合分布相关。联合熵表示为:
H
(
X
,
Y
)
=
−
∑
x
ϵ
X
∑
y
ϵ
Y
P
(
X
,
Y
)
l
o
g
2
P
(
X
,
Y
)
H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y)
H(X,Y)=−∑xϵX∑yϵYP(X,Y)log2P(X,Y)
条件熵上与条件分布及联合分布相关。条件熵表示为:
H
(
X
∣
Y
)
=
−
∑
x
ϵ
X
∑
y
ϵ
Y
P
(
X
,
Y
)
l
o
g
2
P
(
X
∣
Y
)
H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y)
H(X∣Y)=−∑xϵX∑yϵYP(X,Y)log2P(X∣Y)
The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)
链式法则:
H
(
X
,
Y
)
=
H
(
X
∣
Y
)
+
H
(
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X)
H(X,Y)=H(X∣Y)+H(Y)=H(X)+H(Y∣X)
1.4 互信息
互信息为熵减去条件熵。
I
(
X
,
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X,Y ) = H(Y) - H(Y|X ) = H(X) - H(X|Y)
I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)
互信息为 熵 的和减去 联合熵
I
(
X
,
Y
)
=
H
(
Y
)
+
H
(
X
)
−
H
(
X
,
Y
)
I(X,Y ) = H(Y) + H(X ) - H(X,Y)
I(X,Y)=H(Y)+H(X)−H(X,Y)
上诉过程可以用图加深理解:
通俗理解:一个变量A对变量B不确定性的削弱程度。
互信息是指是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。
互信息新词发现
左右熵
某词出现的情况下,其左边词和右边词的搭配越丰富,效果越好。
互信息,