关于交叉熵（Cross Entropy）与Softmax

小声逼逼

已于 2023-06-20 12:13:07 修改

阅读量4.6k

点赞数 6

分类专栏：机器学习深度学习文章标签：神经网络机器学习深度学习

于 2018-08-20 17:51:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqq_aaa_zzz1/article/details/81875236

版权

本文详细介绍了Softmax函数、交叉熵和它们在深度学习中的作用。讲解了KL散度、交叉熵损失以及Softmax的求导过程，探讨了它们之间的关系，并提出了稳定Softmax的变体。内容涵盖Softmax的性质、交叉熵的计算以及在神经网络模型中的应用。

摘要由CSDN通过智能技术生成

目录

写在前面
KL散度
交叉熵
Softmax
交叉熵与Softmax的关系
交叉熵损失
Softmax的求导
堆叠+向量化
其他关于Softmax函数的问题
赠品

写在前面

Softmax、交叉熵、交叉熵损失是机器学习与神经网络模型的重要组成部分，一般来说，Softmax一般用于criterion(标准)，交叉熵与交叉熵损失用来衡量模型预测与实际结果间的差别并产生用于反向传播的梯度。
本文将基于这些专有名词，粗略讨论其关系，并给出基于Softmax的交叉熵损失的求导过程。

一、KL散度

KL散度是信息论中的重要概念，用来描述两个概率分布的差异。

如果对于同一个随机变量 $x$ 有两个单独的概率分布 $P (x)$ 和 $Q (x)$ ，则可以使用KL散度(Kullback-Leiber(KL) divergence)来衡量这两个分布的差异：

$D_\text{KL}(P||Q) = E_{x\sim P}[log\frac{P(x)}{Q(x)}] = E_{x\sim P}[log{P(x)}-log{Q(x)}]$

KL散度有很多有用的性质：

最重要的是，它是非负的。
当 $x$ 是离散型变量时，KL散度为0当且仅当 $P (x)$ 与 $Q (x)$ 具有相同的分布。
KL散度表征了某种距离，但不是真正的距离，因为KL散度不对称： $D_{KL}(P||Q) \not= D_{KL}(Q||P)$

二、交叉熵

交叉熵与KL散度密切相关：

$H(P,Q) = H(P) + D_{KL}(P||Q)$

其中H(P,Q)是交叉熵(cross-entropy)，H§是概率分布P的香农熵。
可以看出它与KL散度很像，但当我们将它展开后发现：

$H (P, Q)$

$H(P) + D_{KL}(P||Q)$

$E_{x\sim P}[\log P(x)] + E_{x\sim P}[\log{P(x)}-\log{Q(x)}]$

$=-E_{x\sim P} \log{Q(x)}$

在深度学习中，针对Q最小化交叉熵等价于最小化KL散度，因为Q与P独立，Q与P的香农熵无关。

在有监督学习的一般模型中，概率一般是离散的，所以交叉熵可以改写为：

最低0.47元/天解锁文章

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。