大概是你见过最详细最靠近数学方式理解熵系列的博客。
目前内容有信息量,自信息,条件熵,联合熵,互信息,条件互信息。
自信息
香农当时希望自信息这个概念要满足如下几个条件:
1、一个百分百发生的事件不提供任何信息
2、这个事件越不可能发生,他的发生将会提供更多信息
3、如果两个独立事件是分开测量的,他们的自信息总和就是他们分别的自信息之和
这第三点也就是说满足下面这个式子(假设
I
(
x
)
I(x)
I(x)代表x的信息量):
I
(
x
,
y
)
=
I
(
x
)
+
I
(
y
)
式
1
I(x,y)=I(x)+I(y) \quad式1
I(x,y)=I(x)+I(y)式1
我们知道,独立的两个事件一同发生的概率是
P
(
x
,
y
)
=
P
(
x
)
∗
P
(
y
)
式
2
P(x,y)=P(x)\ * \ P(y)\quad 式2
P(x,y)=P(x) ∗ P(y)式2
根据第一点和第二点我们知道,自信息是一个和事件发生概率有关的数学量,我们可以假设成如下形式
I
(
x
)
=
f
(
P
(
x
)
)
I(x)=f(P(x))
I(x)=f(P(x))
那么要满足式1和式2,最合适的
f
(
)
f()
f()就是
l
o
g
(
)
log()
log()函数,因此我们得到了如下关于自信息的定义
I
(
x
)
=
−
l
o
g
P
(
x
)
I(x)=-logP(x)
I(x)=−logP(x)
我们知道log是个定义域内单调递增的函数,所以为了满足自信息随着概率升高递减,在前面补上个负号,这也是香农1、2的定义所隐含的。
这个log的底数我们是不确定的,如果底数是2,这个自信息的单位就是"bit"或者"shannon";如果是自然对数e,就是“nat”(nature缩写);如果底数是10,单位就是“hartleys”或者代表十进制数的“digits”,有时候也可以写成“dits”。
正式的,因为负号可以提到log里面,所以还有一个形式(第二个等式)
I
(
x
)
=
−
l
o
g
P
(
x
)
=
l
o
g
(
1
P
(
x
)
)
I(x)=-logP(x)=log(\frac{1}{P(x)})
I(x)=−logP(x)=log(P(x)1)
(香农)熵
香农熵就被定义成如下形式
H
(
X
)
=
∑
x
−
P
(
x
)
l
o
g
P
(
x
)
=
∑
x
P
(
x
)
I
(
x
)
=
E
[
I
(
x
)
]
H(X)=\sum_x-P(x)logP(x)\\=\sum_xP(x)I(x) \\=E[I(x)]
H(X)=x∑−P(x)logP(x)=x∑P(x)I(x)=E[I(x)]
上面第三个等式,我们知道关于随机变量x的概率分布期望就是
∑
k
=
1
+
∞
x
k
P
(
x
k
)
\sum_{k=1}^{+\infin}x_{k}P(x_{k})
∑k=1+∞xkP(xk)
,是不是就能感觉到熵其实就是信息量的期望。
特性:
- 连续性
该量度应连续,概率值小幅变化只能引起熵的微小变化。 - 对称性
符号xi重新排序后,该量度应不变。如
H n ( p 1 , p 2 . . ) = H n ( p 2 , p 1 . . . ) H_n(p_1,p_2..)=H_n(p_2,p_1...) Hn(p1,p2..)=Hn(p2,p1...)
3.极值性
当所有事件等概率发生,熵达到最大值(因为非常不确定谁会发生)
H n ( p 1 , p 2 . . . ) ≤ H n ( 1 n , 1 n . . . ) = log b n , H 后 的 下 标 代 表 事 件 数 H_n(p_1,p_2...)\le H_n(\frac{1}{n},\frac{1}{n}...)=\log_b{n},H后的下标代表事件数 Hn(p1,p2...)≤Hn(n1,n1...)=logbn,H后的下标代表事件数
这个性质其实就是要证明下式,该式子的证明可通过琴生不等式证明
根据琴生不等式,即当函数是凸函数时,总有等概率事件的熵应随符号的数量增加。这个也很好理解,因为假如选项只有两个,正确答案是其中一个,概率都是等概率的也就是二分之一,此时答对的可能性是一半,但如果选项有四个,混乱程度就增加了,也就是说
log b n ≤ log b ( n + 1 ) = H n + 1 ( 1 n + 1 , 1 n + 1 . . . . ) \log_b{n}\le \log_b(n+1)=H_{n+1}(\frac{1}{n+1},\frac{1}{n+1}....) logbn≤logb(n+1)=Hn+1(n+11,n+11....)
增减一概率为零的事件不改变熵:
联合熵
联合熵是一个变量集合不确定性的度量。
被定义为
H
(
X
,
Y
)
=
−
∑
x
∑
y
P
(
x
,
y
)
l
o
g
P
(
x
,
y
)
H(X,Y)=-\sum_x\sum_yP(x,y)logP(x,y)
H(X,Y)=−x∑y∑P(x,y)logP(x,y)
x和y是X和Y分布里的一个特定值,P(x,y)就是联合概率。
如果变量数更多,那么定义可以延伸成以下形式。
H
(
X
1
,
.
.
.
,
X
n
)
=
−
∑
x
1
.
.
.
∑
x
n
P
(
x
1
.
.
.
x
n
)
l
o
g
P
(
x
1
.
.
.
x
n
)
H(X_1,...,X_n)=-\sum_{x_1}...\sum_{x_n}P(x_1...x_n)logP(x_1...x_n)
H(X1,...,Xn)=−x1∑...xn∑P(x1...xn)logP(x1...xn)
性质:
1.非负性。因为每个log项都是小于0的,所以加合也小于0,取反非负。
2.大于等于任何一个变量的独立熵
H
(
X
1
.
.
.
X
N
)
≥
m
a
x
{
H
(
X
1
)
,
.
.
H
(
X
N
)
}
H(X_1...X_N)≥max\{H(X_1),..H(X_N)\}
H(X1...XN)≥max{H(X1),..H(XN)}
3.小于等于每个变量的独立熵合
H
(
X
,
Y
)
≤
H
(
X
)
+
H
(
Y
)
H(X,Y)≤H(X)+H(Y)
H(X,Y)≤H(X)+H(Y)
4.连锁法则
H
(
X
1
,
X
2
.
.
X
n
)
=
∑
i
=
1
n
H
(
X
i
∣
X
1
,
.
.
.
X
i
−
1
)
H(X_1,X_2..X_n)=\sum_{i=1}^{n}H(X_i|X_1,...X_{i-1})
H(X1,X2..Xn)=i=1∑nH(Xi∣X1,...Xi−1)
用归纳法可以证明
H
(
X
1
,
.
.
.
X
m
,
X
m
+
1
)
=
H
(
X
1
,
.
.
X
m
)
+
H
(
X
m
+
1
∣
X
1
.
.
.
X
m
)
[
这
是
因
为
对
m
=
2
时
已
经
证
明
过
了
,
下
面
条
件
熵
的
部
分
]
=
∑
i
=
1
m
H
(
X
i
∣
X
1
.
.
X
i
−
1
)
+
H
(
X
m
+
1
∣
X
1
.
.
.
X
m
)
[
假
设
对
n
=
m
时
成
立
]
=
∑
i
=
1
m
+
1
H
(
X
i
∣
X
1
,
.
.
.
X
i
−
1
)
[
对
n
=
m
+
1
也
成
立
]
{\begin{aligned}H(X_1,...X_m,X_{m+1})&=H(X_1,..X_m)+H(X_{m+1}|X_1...X_m)\quad[这是因为对m=2时已经证明过了,下面条件熵的部分]\\&=\sum_{i=1}^{m}H(X_i|X_1..X_{i-1})+H(X_{m+1}|X_1...X_m)\quad[假设对n=m时成立]\\&=\sum_{i=1}^{m+1}H(X_i|X_1,...X_{i-1})\quad[对n=m+1也成立]\end{aligned}}
H(X1,...Xm,Xm+1)=H(X1,..Xm)+H(Xm+1∣X1...Xm)[这是因为对m=2时已经证明过了,下面条件熵的部分]=i=1∑mH(Xi∣X1..Xi−1)+H(Xm+1∣X1...Xm)[假设对n=m时成立]=i=1∑m+1H(Xi∣X1,...Xi−1)[对n=m+1也成立]
条件熵
假设另一个随机变量X的值已知,条件熵(或模糊性)量化描述随机变量Y的结果所需的信息量。
H
(
Y
∣
X
)
=
∑
x
p
(
x
)
H
(
Y
∣
X
=
x
)
[
定
义
如
此
]
=
−
∑
X
,
Y
P
(
x
,
y
)
l
o
g
P
(
x
,
y
)
P
(
x
)
[
这
里
的
推
导
略
了
,
大
致
就
是
按
全
概
率
的
思
想
把
H
(
Y
∣
X
)
展
开
]
\begin{aligned}H(Y|X)=&\sum_xp(x)H(Y|X=x) \quad[定义如此] \\=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\quad[这里的推导略了,大致就是按全概率的思想把H(Y|X)展开]\end{aligned}
H(Y∣X)==x∑p(x)H(Y∣X=x)[定义如此]−X,Y∑P(x,y)logP(x)P(x,y)[这里的推导略了,大致就是按全概率的思想把H(Y∣X)展开]
也可以和联合熵做一个联系:
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
[
这
就
是
上
面
说
的
证
明
,
稍
微
移
项
一
下
就
好
]
H(Y|X)=H(X,Y)-H(X) \quad[这就是上面说的证明,稍微移项一下就好]
H(Y∣X)=H(X,Y)−H(X)[这就是上面说的证明,稍微移项一下就好]
这个推导过程如下:
原
式
=
−
∑
X
,
Y
P
(
x
,
y
)
l
o
g
P
(
x
,
y
)
P
(
x
)
=
−
∑
X
,
Y
P
(
x
,
y
)
[
l
o
g
P
(
x
,
y
)
−
l
o
g
P
(
x
)
]
=
−
∑
X
,
Y
P
(
x
,
y
)
l
o
g
P
(
x
,
y
)
+
∑
X
P
(
x
)
l
o
g
P
(
x
)
\begin{aligned}原式=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\\=&-\sum_{X,Y}P(x,y)[logP(x,y)-logP(x)]\\=&-\sum_{X,Y}P(x,y)logP(x,y)+\sum_{X}P(x)logP(x)\end{aligned}
原式===−X,Y∑P(x,y)logP(x)P(x,y)−X,Y∑P(x,y)[logP(x,y)−logP(x)]−X,Y∑P(x,y)logP(x,y)+X∑P(x)logP(x)
这个过程从第二个等式到第三个等式可能有点奇怪,右侧直接把
∑
X
,
Y
P
(
x
,
y
)
l
o
g
P
(
x
)
=
>
∑
X
P
(
x
)
l
o
g
P
(
x
)
\sum_{X,Y}P(x,y)logP(x)=>\sum_{X}P(x)logP(x)
X,Y∑P(x,y)logP(x)=>X∑P(x)logP(x)
这个是全概率公式,可以看到每个
(
x
,
y
)
(x,y)
(x,y)都互不相容,其和为全集,所以有
P
(
x
)
=
∑
i
∞
P
(
x
y
i
)
P(x)=\sum_i^{\infin}P(xy_i)
P(x)=i∑∞P(xyi)
性质:
1.当且仅当Y完全由X决定,条件熵为0(因为不需要提供任何信息了)
2.当且仅当Y和X独立,条件熵等于分子独立熵
3.连锁法则
H
(
X
1
,
X
2
.
.
.
X
n
∣
Y
)
=
∑
i
=
1
n
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
,
Y
)
【
下
面
几
个
等
式
是
证
明
】
=
H
(
X
1
,
.
.
.
X
n
,
Y
)
−
H
(
Y
)
=
H
(
(
X
1
,
Y
)
.
.
.
X
n
)
−
H
(
Y
)
=
H
(
X
1
,
Y
)
−
H
(
Y
)
+
∑
i
=
2
n
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
,
Y
)
[
熵
的
连
锁
,
移
项
]
=
H
(
X
1
∣
Y
)
+
∑
i
=
2
n
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
,
Y
)
证
毕
\begin{aligned}H(X_1,X_2...X_n|Y)=&\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y)【下面几个等式是证明】 \\=&H(X_1,...X_n,Y)-H(Y) \\=&H((X_1,Y)...X_n)-H(Y) \\=&H(X_1,Y)-H(Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y) \quad[熵的连锁,移项] \\=&H(X_1|Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y)\\证毕 \end{aligned}
H(X1,X2...Xn∣Y)=====证毕i=1∑nH(Xi∣X1...Xi−1,Y)【下面几个等式是证明】H(X1,...Xn,Y)−H(Y)H((X1,Y)...Xn)−H(Y)H(X1,Y)−H(Y)+i=2∑nH(Xi∣X1...Xi−1,Y)[熵的连锁,移项]H(X1∣Y)+i=2∑nH(Xi∣X1...Xi−1,Y)
4.贝叶斯法则
H
(
Y
∣
X
)
=
H
(
X
∣
Y
)
−
H
(
X
)
+
H
(
Y
)
{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y)}
H(Y∣X)=H(X∣Y)−H(X)+H(Y)
证明
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
H
(
X
∣
Y
)
=
H
(
Y
,
X
)
−
H
(
Y
)
对
称
性
:
H
(
X
,
Y
)
=
H
(
Y
,
X
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)}\\ {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)} \\对称性: {\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)}
H(Y∣X)=H(X,Y)−H(X)H(X∣Y)=H(Y,X)−H(Y)对称性:H(X,Y)=H(Y,X)
用第一条等式减第二条等式就得到了贝叶斯法则
其他的性质
H
(
Y
∣
X
)
≤
H
(
Y
)
H
(
X
,
Y
)
=
H
(
X
∣
Y
)
+
H
(
Y
∣
X
)
+
I
(
X
;
Y
)
,
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
I
(
X
;
Y
)
,
I
(
X
;
Y
)
≤
H
(
X
)
,
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\end{aligned}}}
H(Y∣X)H(X,Y)H(X,Y)I(X;Y)≤H(Y)=H(X∣Y)+H(Y∣X)+I(X;Y),=H(X)+H(Y)−I(X;Y),≤H(X),
第一条就不用多说了,知道别的分布总比不知道要好,所以左边需要的信息不会大于右边。也可以数学证明,这里不证明了。
剩下三条的 I ( X ; Y ) I(X;Y) I(X;Y)是互信息,等等讲,不着急。
互信息
根据熵的连锁规则,有
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
所以整理可得
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
H(X)-H(X|Y)=H(Y)-H(Y|X)
H(X)−H(X∣Y)=H(Y)−H(Y∣X)
这个差就叫做X和Y的互信息,记做
I
(
X
;
Y
)
I(X;Y)
I(X;Y)。
互信息的链规则:
I
(
X
1
n
;
Y
)
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
1
,
.
.
.
X
n
−
1
)
I(X_{1n};Y)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1})
I(X1n;Y)=i=1∑nI(Xi;Y∣X1,...Xn−1)
证明:
I
(
X
1
n
;
Y
)
=
H
(
X
1
.
.
.
X
n
)
−
H
(
X
1
,
.
.
X
n
∣
Y
)
[
互
信
息
定
义
]
=
∑
i
=
1
n
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
)
−
∑
i
=
1
n
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
,
Y
)
=
∑
i
=
1
n
[
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
)
−
H
(
X
i
∣
X
1
.
.
.
X
i
−
1
,
Y
)
]
[
互
信
息
定
义
,
多
观
察
一
下
]
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
1
,
.
.
.
X
n
−
1
)
\begin{aligned}I(X_{1n};Y)=&H(X_1...X_n)-H(X_1,..X_n|Y)\quad [互信息定义] \\=&\sum_{i=1}^nH(X_i|X_1...X_{i-1})-\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y) \\=&\sum_{i=1}^n[H(X_i|X_1...X_{i-1})-H(X_i|X_1...X_{i-1},Y)] \quad[互信息定义,多观察一下] \\=&\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1}) \end{aligned}
I(X1n;Y)====H(X1...Xn)−H(X1,..Xn∣Y)[互信息定义]i=1∑nH(Xi∣X1...Xi−1)−i=1∑nH(Xi∣X1...Xi−1,Y)i=1∑n[H(Xi∣X1...Xi−1)−H(Xi∣X1...Xi−1,Y)][互信息定义,多观察一下]i=1∑nI(Xi;Y∣X1,...Xn−1)
条件互信息的链规则:
I
(
X
1
n
;
Y
∣
Z
)
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
1
,
.
.
.
X
n
−
1
,
Z
)
I(X_{1n};Y|Z)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1},Z)
I(X1n;Y∣Z)=i=1∑nI(Xi;Y∣X1,...Xn−1,Z)
证明和互信息链规则很像,其实就是要理解"|“和”;"的结合方式是
I
(
X
;
Y
∣
Z
)
=
I
(
(
X
;
Y
)
∣
Z
)
=
H
(
X
∣
Z
)
=
H
(
X
∣
Y
,
Z
)
I(X;Y|Z)=I((X;Y)|Z)=H(X|Z)=H(X|Y,Z)
I(X;Y∣Z)=I((X;Y)∣Z)=H(X∣Z)=H(X∣Y,Z)
然后按着上面的互信息链证明即可