自信息
《深度学习》P47
自信息:描述一个所含有的信息量,
概率越小的事件所有包含的信息量(也叫自信息)越大,概率越大的事件发生了所包含的自信息越小。自信息的数学定义:
I
(
x
)
=
−
l
o
g
P
(
x
)
\Huge I(x) = -logP(x)
I(x)=−logP(x)
机器学习中log的底一般为为自然对数
e
e
e
自信息只是处理单个的输出,使用香农熵来表示对整个概率分布中的不确定性的总量的量化
H
(
x
)
=
E
x
∼
P
=
−
E
x
∼
P
[
l
o
g
P
(
x
)
]
\Huge H(x)=\mathbb{E}_{x\sim P}=-\mathbb{E}_{x\sim P}[logP(x)]
H(x)=Ex∼P=−Ex∼P[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量.
KL散度(相对熵)
维基百科:https://en.wikipedia.org/wiki/Kullback–Leibler_divergence
计算使Q(x)分布变成P(x)分布,所需要的额外的P(x)信息, 可以使用KL散度量衡量P(x)和Q(x)分布的差异性Q:
D
K
L
(
P
∣
∣
Q
)
=
E
x
∼
P
[
l
o
g
P
(
x
)
Q
(
x
)
]
=
E
x
∼
P
[
l
o
g
P
(
x
)
−
l
o
g
Q
(
x
)
\Huge D_{KL}(P||Q)=\mathbb{E}_{x\sim P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[logP(x)-logQ(x)
DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)
交叉熵
使用Q(x)变成P(x)所以需要的额外的P(x)信息 加上 P(x)本身所具有的香农熵, 等于把Q(x)变成P(x)所需要的总的信息量.
H
(
P
,
Q
)
=
H
(
P
)
−
D
K
L
(
P
∣
∣
Q
)
\huge H(P,Q)=H(P) - D_{KL}(P||Q)
H(P,Q)=H(P)−DKL(P∣∣Q)
进过变化得到
H
(
P
,
Q
)
=
−
E
x
∼
P
l
o
g
Q
(
x
)
\huge H(P,Q)=-\mathbb{E}_{x\sim P}logQ(x)
H(P,Q)=−Ex∼PlogQ(x)
当针对Q最小化交叉熵的时候,交叉熵等价于KL散度, 因为H§并没有Q项.