交叉熵函数推导

交叉熵的推导

1.最大似然

何为最大似然?哲学上有句话叫做“存在就是合理的”,最大似然的意思是“存在就是最合理的”。具体来说,如果事件 X X X的概率分布为 p ( X ) p(X) p(X),如果一次观测中具体观测到的值分别为 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,,Xn,并假设它们是相互独立,那么
P = ∏ i = 1 n p ( X i ) (1) \mathcal P=\prod_{i=1}^np(X_i) \tag{1} P=i=1np(Xi)(1)
是最大的。如果 p ( X ) p(X) p(X)是一个带有参数 θ \theta θ的概率分布式 p θ ( X ) p_{\theta}(X) pθ(X),那么我们应当想办法选择 θ \theta θ,使得 L \mathcal L L最大化,即
θ = a r g m a x θ ∏ i = 1 n p θ ( X i ) (2) θ={\underset {\theta} {argmax}} \prod_{i=1}^np_{\theta}(X_i) \tag{2} θ=θargmaxi=1npθ(Xi)(2)
再对两边取对数并除以n,就得到
θ = a r g m a x θ L ( θ ) = a r g m a x θ E [ l o g p θ ( X i ) ] (3) θ={\underset {\theta} {argmax}} \mathcal L(\theta)={\underset {\theta} {argmax}} \mathbb E [log p_{\theta}(X_i)] \tag{3} θ=θargmaxL(θ)=θargmaxE[logpθ(Xi)](3)
其中我们就把 − L ( θ ) -\mathcal L(\theta) L(θ)叫做交叉熵.

2.推导

对应在神经网络中的公式,为:
L = 1 N ∑ i − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] \mathcal L={1 \over N} \sum_i-[ylog \hat y+(1-y)log(1-\hat y)] L=N1i[ylogy^+(1y)log(1y^)]
推导:

Sigmoid 函数的输出表征了当前样本标签为 1 的概率: y ^ = P ( y = 1 ∣ x ) \hat y=P(y=1|x) y^=P(y=1x)

那么样本标签为 0 的概率就可以写成: 1 − y ^ = P ( y = 0 ∣ x ) 1-\hat y=P(y=0|x) 1y^=P(y=0x)

从最大似然性的角度出发,把上面两种情况整合到一起:
P ( y ∣ x ) = y ^ y ⋅ ( 1 − y ^ ) 1 − y P(y|x)=\hat y^y\cdot (1-\hat y)^{1-y} P(yx)=y^y(1y^)1y
上面的式子可以这样理解,当真实样本标签$ y = 0$ 时, y ^ y = 1 \hat y^y=1 y^y=1 ( 1 − y ^ ) ( 1 − y ) = 1 − y ^ (1-\hat y)^{(1-y)}=1-\hat y (1y^)(1y)=1y^,上式就转化为:

P ( y = 0 ∣ x ) = 1 − y ^ P(y=0|x)=1-\hat y P(y=0x)=1y^

当真实样本标签$ y = 1 时 , 时, \hat y^y=\hat y , , (1-\hat y)^{(1-y)}=1$,概率等式转化为:

P ( y = 1 ∣ x ) = y ^ P(y=1|x)=\hat y P(y=1x)=y^

两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。

然后两边取对数,加上负号,就得到了交叉熵函数。使交叉熵最小,也就是使 P ( y ∣ x ) P(y|x) P(yx)最大的过程。

对应到多标签分类,其实就是对二分类的扩展:
L = 1 N ∑ i L i = 1 N ∑ i − ∑ c = 1 M y i c l o g ( p i c ) \mathcal L={1 \over N} \sum_iL_i={1 \over N} \sum_i-\sum_{c=1}^M y_{ic} log(p_{ic}) L=N1iLi=N1ic=1Myiclog(pic)
其中:
M M M——类别的数量;
y i c y_{ic} yic——指示变量(0或1),如果该类别和样本i的类别相同就是1,否则是0;
p i c p_{ic} pic——对于观测样本i属于类别c的预测概率。

参考:
1.https://zhuanlan.zhihu.com/p/35709485
2.https://spaces.ac.cn/archives/5239

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值