交叉熵、熵和相对熵的通俗易懂解释

最新推荐文章于 2024-08-09 13:44:55 发布

置顶

weepon

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量7.6k

点赞数 19

分类专栏：机器学习文章标签：交叉熵机器学习相对熵自信息 KL散度

本文链接：https://blog.csdn.net/u013829973/article/details/80936272

版权

本文深入浅出地介绍了交叉熵、熵和相对熵（KL散度）这三个机器学习中重要的概念。首先，定义了自信息，并通过实例解释了自信息如何衡量事件发生的意外性。接着，阐述了熵的概念，它是衡量随机变量不确定性的一个量，通过计算不同概率分布的熵，展示了不确定性与熵的关系。然后，详细讲解了相对熵（KL散度），它衡量了两个概率分布之间的差异。最后，探讨了交叉熵在逻辑回归中的应用，以及为何在机器学习中选择交叉熵作为损失函数，而非平方损失函数。

摘要由CSDN通过智能技术生成

交叉熵（Cross-Entropy）

交叉熵（Cross-Entropy）

交叉熵是一个在机器学习领域经常提到的概念。它经常用作代价(损失)函数，而均方误差或平均绝对误差在使用梯度优化的方法时往往效果不佳，一些饱和的神经网络输出单元结合这些代价函数时会产生非常小的梯度，这也是交叉熵代价函数比均方误差或平均绝对误差更受欢迎的原因。在学习交叉熵之前，我们先来了解下其他的基础概念：

1.什么是自信息(self-information)？

定义：假设 $X$ 是一个离散型随机变量，其取值集合为 $\chi$ ，概率分布函数为 $p(x)=P(X=x),x∈\chi$ ,我们定义事件 $X=x_0$ 的自信息为：

I(x0)=−log(p(x0)) I ( x 0 ) = − l o g ( p ( x 0 ) ) $I(x_0)=−log(p(x_0))$

可以理解为，一个事件发生的概率越大，则它所携带的信息量就越小，而当 $p(x_0)=1$ 时，熵将等于0，也就是说该事件的发生包含的信息量小。
举个例子，小明平时不爱学习，考试经常不及格，而小王是个勤奋学习的好学生，经常得满分，所以我们可以做如下假设：
事件A：小明考试及格，对应的概率 $P(x_A)=0.1$ ，信息量为 $I(x_A)=−log(0.1)=3.3219$ .
事件B：小王考试及格，对应的概率 $P(x_B)=0.999$ ，信息量为 $I(x_B)=−log(0.999)=0.0014$

可以看出，结果非常符合直观：小明及格的可能性很低(十次考试只有一次及格)，因此如果某次考试及格了（大家都会说：XXX竟然及格了！），必然会引入较大的信息量，对应的 $I$ 值也较高。而对于小王而言，考试及格是大概率事件，在事件B发生前，大家普遍认为事件B的发生几乎是确定的，因此当某次考试小王及格这个事件发生时并不会引入太多的信息量，相应的 $I$ 值也非常的低。