引言:信息是用来消除随机不确定的东西 —— 香农
1.信息熵
减少不确定性越大、信息量越大。信息量大小与信息发生的概率成反比。
信息量:
事件x的信息量:
I
(
x
)
=
−
l
n
(
p
(
x
)
)
(
p
(
x
)
为
事
件
x
的
发
生
概
率
)
(
1
)
I(x)=-ln(p(x))\qquad(p(x)为事件x的发生概率)\qquad(1)
I(x)=−ln(p(x))(p(x)为事件x的发生概率)(1)
信息熵:所有信息量的期望
H
(
X
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
n
(
p
(
x
i
)
)
(
X
=
x
1
,
x
2
,
.
.
.
,
x
n
)
(
2
)
H(X)=-\sum\limits_{i=1}^n p(x_i)ln(p(x_i))\qquad(X=x_1,x_2,...,x_n)\qquad(2)
H(X)=−i=1∑np(xi)ln(p(xi))(X=x1,x2,...,xn)(2)
2.相对熵(KL散度)
衡量两个概率分布的差异,越小表示越接近。
D
K
L
(
X
)
=
∑
i
=
1
n
p
(
x
i
)
l
n
(
p
(
x
i
)
q
(
x
i
)
)
(
X
=
x
1
,
x
2
,
.
.
.
,
x
n
)
(
3
)
D_{KL}(X)=\sum\limits_{i=1}^n p(x_i)ln(\frac{p(x_i)}{q(x_i)})\qquad(X=x_1,x_2,...,x_n)\qquad(3)
DKL(X)=i=1∑np(xi)ln(q(xi)p(xi))(X=x1,x2,...,xn)(3)
p
(
x
i
)
p(x_i)
p(xi)和
q
(
x
i
)
q(x_i)
q(xi)为分别第i个事件的真实概率和预测概率
则由(3)式:
K
L
散
度
=
D
K
L
(
X
)
=
∑
i
=
1
n
p
(
x
i
)
l
n
(
p
(
x
i
)
q
(
x
i
)
)
=
∑
i
=
1
n
p
(
x
i
)
l
n
(
p
(
x
i
)
−
∑
i
=
1
n
p
(
x
i
)
l
n
(
q
(
x
i
)
=
−
H
(
x
)
+
[
−
∑
i
=
1
n
p
(
x
i
)
l
n
(
q
(
x
i
)
]
=
[
−
∑
i
=
1
n
p
(
x
i
)
l
n
(
q
(
x
i
)
)
]
−
H
(
x
)
=
交
叉
熵
−
信
息
熵
\begin{aligned} KL散度 &=D_{KL}(X)\\ &= \sum\limits_{i=1}^n p(x_i)ln(\frac{p(x_i)}{q(x_i)})\\ &= \sum\limits_{i=1}^n p(x_i)ln(p(x_i)- \sum\limits_{i=1}^n p(x_i)ln(q(x_i)\\ &=-{H(x)}+{[-\sum\limits_{i=1}^n p(x_i)ln(q(x_i)]}\\ &={[-\sum\limits_{i=1}^n p(x_i)ln(q(x_i))]}- {H(x)}\\ &=交叉熵-信息熵 \end{aligned}
KL散度=DKL(X)=i=1∑np(xi)ln(q(xi)p(xi))=i=1∑np(xi)ln(p(xi)−i=1∑np(xi)ln(q(xi)=−H(x)+[−i=1∑np(xi)ln(q(xi)]=[−i=1∑np(xi)ln(q(xi))]−H(x)=交叉熵−信息熵
由于信息熵真值是固定的,因此只用计算交叉熵即可,而且相比KL散度计算更简单。
交叉熵损失:
C E l o s s = − 1 m ∑ i = 1 m ∑ j = 1 n p ( x i j ) l n ( q ( x i j ) ) ( m 为 样 本 个 数 , n 为 类 别 数 ) CE_{loss}=-\frac{1}{m}\sum\limits_{i=1}^m\sum\limits_{j=1}^n p(x_{ij})ln(q(x_{ij}))\quad(m为样本个数,n为类别数) CEloss=−m1i=1∑mj=1∑np(xij)ln(q(xij))(m为样本个数,n为类别数)