关于交叉熵(Cross Entropy)与Softmax

本文详细介绍了Softmax函数、交叉熵和它们在深度学习中的作用。讲解了KL散度、交叉熵损失以及Softmax的求导过程,探讨了它们之间的关系,并提出了稳定Softmax的变体。内容涵盖Softmax的性质、交叉熵的计算以及在神经网络模型中的应用。
摘要由CSDN通过智能技术生成

目录

  1. 写在前面
  2. KL散度
  3. 交叉熵
  4. Softmax
  5. 交叉熵与Softmax的关系
  6. 交叉熵损失
  7. Softmax的求导
  8. 堆叠+向量化
  9. 其他关于Softmax函数的问题
  10. 赠品

写在前面

Softmax、交叉熵、交叉熵损失是机器学习与神经网络模型的重要组成部分,一般来说,Softmax一般用于criterion(标准),交叉熵与交叉熵损失用来衡量模型预测与实际结果间的差别并产生用于反向传播的梯度。
本文将基于这些专有名词,粗略讨论其关系,并给出基于Softmax的交叉熵损失的求导过程。

一、KL散度

KL散度是信息论中的重要概念,用来描述两个概率分布的差异。

如果对于同一个随机变量 x x x有两个单独的概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x),则可以使用KL散度(Kullback-Leiber(KL) divergence)来衡量这两个分布的差异:

D KL ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g Q ( x ) ] D_\text{KL}(P||Q) = E_{x\sim P}[log\frac{P(x)}{Q(x)}] = E_{x\sim P}[log{P(x)}-log{Q(x)}] DKL(P∣∣Q)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

KL散度有很多有用的性质:

  1. 最重要的是,它是非负的。
  2. x x x是离散型变量时,KL散度为0当且仅当 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x)具有相同的分布。
  3. KL散度表征了某种距离,但不是真正的距离,因为KL散度不对称: D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P||Q) \not= D_{KL}(Q||P) DKL(P∣∣Q)=DKL(Q∣∣P)

二、交叉熵

交叉熵与KL散度密切相关:

H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) H(P,Q) = H(P) + D_{KL}(P||Q) H(P,Q)=H(P)+DKL(P∣∣Q)

其中H(P,Q)是交叉熵(cross-entropy),H§是概率分布P的香农熵。
可以看出它与KL散度很像,但当我们将它展开后发现:

H ( P , Q ) H(P,Q) H(P,Q)

= H ( P ) + D K L ( P ∣ ∣ Q ) = H(P) + D_{KL}(P||Q) =H(P)+DKL(P∣∣Q)

= E x ∼ P [ log ⁡ P ( x ) ] + E x ∼ P [ log ⁡ P ( x ) − log ⁡ Q ( x ) ] = E_{x\sim P}[\log P(x)] + E_{x\sim P}[\log{P(x)}-\log{Q(x)}] =ExP[logP(x)]+ExP[logP(x)logQ(x)]

= − E x ∼ P log ⁡ Q ( x ) =-E_{x\sim P} \log{Q(x)} =ExPlogQ(x)

在深度学习中,针对Q最小化交叉熵等价于最小化KL散度,因为Q与P独立,Q与P的香农熵无关。

在有监督学习的一般模型中,概率一般是离散的,所以交叉熵可以改写为:

H ( P , Q ) = − ∑

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值