交叉熵理解（从信息量--熵--相对熵（KL散度）到交叉熵--对数损失函数）

最新推荐文章于 2024-03-08 22:27:47 发布

鸡汤本汤

最新推荐文章于 2024-03-08 22:27:47 发布

阅读量498

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/YangTinTin/article/details/104696360

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

在机器学习中，经常用交叉熵来衡量预测值与真实值之间的差距，要想真正理解交叉熵，我们要依次了解信息量、熵、相对熵，交叉熵实际上是相对熵的一部分。不要被这些字眼吓到，实际上我们一步步看下来还是很容易理解的。

参考博客

文章目录

1、信息量。

首先我们来了解信息量，有以下两个事件
事件A：巴西队进入了2018世界杯决赛圈。
事件B：中国队进入了2018世界杯决赛圈。
直觉上来看，事件B带来的信息量更多，因为事件B发生的概率比事件A发生的概率小。由此我们可知，一个事件的信息量是与其发生的概率相关的，而且，如果一个事件发生的概率越小，当其发生了，带来的信息量就越大。假设X为一离散型随机变量， $X=x_0$ 的概率表示为 $p(x_0)$ ，那么 $x_0$ 的信息量为：

$I(x_0)=-log(p(x_0))$ 这里的对数一般取自然对数e

2、熵

理解了信息量之后，这里给出熵的一个理解：熵是信息量的期望。
怎么理解呢？一个事件可能有多种状态，而每一种状态都有一种可能性，举例：

事件	概率
电脑正常开机	0.7
电脑坏掉了	0.2
电脑蓝屏了	0.1

对于电脑的三种状态事件，我们都可以求出一个信息量，那么熵即是这些信息量的期望。熵定义如下：

$H(x)=-\sum_{i=1}^3p(x_i)log(p(x_i))$

通俗的表示，如果有n中状态，那么熵可以表示为：

$H(x)=-\sum_{i=1}^np(x_i)log(p(x_i))$

当n=2时，我们可以将熵简化为：

$H(x)=-\sum_{i=1}^2p(x_i)log(p(x_i))$

$p(x_i)log(p(x_i))-(1-p(x_i))log(1-p(x_i))$

3、相对熵（即KL散度）

相对熵可以用来衡量同一随机变量的两种分布之间的差距。以机器学习中的三分类问题为例，假设一个样本的真实标签为1（属于1这一类），使用onehot表示即为 $[0, 1, 0]$ ，则这一样本的真实分布为 $p = [0, 1, 0]$ ,我们对这一个样本预测的结果表示为 $q = [0.1, 0.7, 0.2]$ ，那么我们衡量 $p 与, (x)$ 的差异，就可以使用相对熵（即KL散度）。