交叉熵与softmax的概念

最新推荐文章于 2024-05-13 20:32:49 发布

neverGiveUp93

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量423

点赞数 1

分类专栏： AI学习文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/hexueqiang93/article/details/107289242

版权

AI学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文介绍了信息量、熵、相对熵（KL散度）以及交叉熵的概念，强调了在0-1分布问题中熵的计算。讨论了在机器学习中，交叉熵作为损失函数用于评估模型与真实分布的差距，而softmax函数用于将神经网络的输出转换为概率分布。

摘要由CSDN通过智能技术生成

信息量:
越不可能的事件发生了，我们获取到的信息量就越大。越可能发生的事件发生了，我们获取到的信息量就越小。信息量的公式如下：
在这里插入图片描述
熵:
用来表示所有信息量的期望，熵的公式如下：

然而有一类比较特殊的问题，比如投掷硬币只有两种可能，字朝上或花朝上。买彩票只有两种可能，中奖或不中奖。我们称之为0-1分布问题（二项分布的特例），对于这类问题，熵的计算方法可以简化为如下算式：
在这里插入图片描述
相对熵：
相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。
在机器学习中，P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1]
直观的理解就是如果用P来描述样本，那么就非常完美。而用Q来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，Q等价于P。
KL散度的计算公式：
在这里插入图片描述
n为事件的所有可能性。
DKL的值越小，表示q分布和p分布越接近

交叉熵：
对于KL散度的公式可以转换如下，等式的前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵：
在这里插入图片描述
因此，交叉熵的公式如下：

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，由于KL散度中的前一部分−H(y)不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss，评估模型。

Softmax：
在神经网络中怎样把前向传播得到的结果也变成概率分布呢？Softmax回归就是一个非常有用的方法。（所以面试官会经常问你，为什么交叉熵经常要个softmax一起使用？）
在这里插入图片描述

参考：
https://blog.csdn.net/tsyccnh/article/details/79163834