交叉熵的推导
1.最大似然
何为最大似然?哲学上有句话叫做“存在就是合理的”,最大似然的意思是“存在就是最合理的”。具体来说,如果事件
X
X
X的概率分布为
p
(
X
)
p(X)
p(X),如果一次观测中具体观测到的值分别为
X
1
,
X
2
,
…
,
X
n
X_1,X_2,…,X_n
X1,X2,…,Xn,并假设它们是相互独立,那么
P
=
∏
i
=
1
n
p
(
X
i
)
(1)
\mathcal P=\prod_{i=1}^np(X_i) \tag{1}
P=i=1∏np(Xi)(1)
是最大的。如果
p
(
X
)
p(X)
p(X)是一个带有参数
θ
\theta
θ的概率分布式
p
θ
(
X
)
p_{\theta}(X)
pθ(X),那么我们应当想办法选择
θ
\theta
θ,使得
L
\mathcal L
L最大化,即
θ
=
a
r
g
m
a
x
θ
∏
i
=
1
n
p
θ
(
X
i
)
(2)
θ={\underset {\theta} {argmax}} \prod_{i=1}^np_{\theta}(X_i) \tag{2}
θ=θargmaxi=1∏npθ(Xi)(2)
再对两边取对数并除以n,就得到
θ
=
a
r
g
m
a
x
θ
L
(
θ
)
=
a
r
g
m
a
x
θ
E
[
l
o
g
p
θ
(
X
i
)
]
(3)
θ={\underset {\theta} {argmax}} \mathcal L(\theta)={\underset {\theta} {argmax}} \mathbb E [log p_{\theta}(X_i)] \tag{3}
θ=θargmaxL(θ)=θargmaxE[logpθ(Xi)](3)
其中我们就把
−
L
(
θ
)
-\mathcal L(\theta)
−L(θ)叫做交叉熵.
2.推导
对应在神经网络中的公式,为:
L
=
1
N
∑
i
−
[
y
l
o
g
y
^
+
(
1
−
y
)
l
o
g
(
1
−
y
^
)
]
\mathcal L={1 \over N} \sum_i-[ylog \hat y+(1-y)log(1-\hat y)]
L=N1i∑−[ylogy^+(1−y)log(1−y^)]
推导:
Sigmoid 函数的输出表征了当前样本标签为 1 的概率: y ^ = P ( y = 1 ∣ x ) \hat y=P(y=1|x) y^=P(y=1∣x)
那么样本标签为 0 的概率就可以写成: 1 − y ^ = P ( y = 0 ∣ x ) 1-\hat y=P(y=0|x) 1−y^=P(y=0∣x)
从最大似然性的角度出发,把上面两种情况整合到一起:
P
(
y
∣
x
)
=
y
^
y
⋅
(
1
−
y
^
)
1
−
y
P(y|x)=\hat y^y\cdot (1-\hat y)^{1-y}
P(y∣x)=y^y⋅(1−y^)1−y
上面的式子可以这样理解,当真实样本标签$ y = 0$ 时,
y
^
y
=
1
\hat y^y=1
y^y=1,
(
1
−
y
^
)
(
1
−
y
)
=
1
−
y
^
(1-\hat y)^{(1-y)}=1-\hat y
(1−y^)(1−y)=1−y^,上式就转化为:
P ( y = 0 ∣ x ) = 1 − y ^ P(y=0|x)=1-\hat y P(y=0∣x)=1−y^
当真实样本标签$ y = 1 时 , 时, 时,\hat y^y=\hat y , , ,(1-\hat y)^{(1-y)}=1$,概率等式转化为:
P ( y = 1 ∣ x ) = y ^ P(y=1|x)=\hat y P(y=1∣x)=y^
两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。
然后两边取对数,加上负号,就得到了交叉熵函数。使交叉熵最小,也就是使 P ( y ∣ x ) P(y|x) P(y∣x)最大的过程。
对应到多标签分类,其实就是对二分类的扩展:
L
=
1
N
∑
i
L
i
=
1
N
∑
i
−
∑
c
=
1
M
y
i
c
l
o
g
(
p
i
c
)
\mathcal L={1 \over N} \sum_iL_i={1 \over N} \sum_i-\sum_{c=1}^M y_{ic} log(p_{ic})
L=N1i∑Li=N1i∑−c=1∑Myiclog(pic)
其中:
M
M
M——类别的数量;
y
i
c
y_{ic}
yic——指示变量(0或1),如果该类别和样本i的类别相同就是1,否则是0;
p
i
c
p_{ic}
pic——对于观测样本i属于类别c的预测概率。
参考:
1.https://zhuanlan.zhihu.com/p/35709485
2.https://spaces.ac.cn/archives/5239