交叉熵（Cross-Entropy）

最新推荐文章于 2025-06-21 15:45:00 发布

原创

最新推荐文章于 2025-06-21 15:45:00 发布 · 10w+ 阅读

307

787 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #理论基础

交叉熵（Cross-Entropy）

交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。

1.什么是信息量？

假设 $X$ 是一个离散型随机变量，其取值集合为 $\mathcal{X}$ ，概率分布函数为 $p(x)=Pr(X=x),x∈\mathcal{X}$ ，我们定义事件 $X=x_0$ 的信息量为：
$I(x_0)=-log(p(x_0))$ ，可以理解为，一个事件发生的概率越大，则它所携带的信息量就越小，而当 $p(x_0)=1$ 时，熵将等于0，也就是说该事件的发生不会导致任何信息量的增加。举个例子，小明平时不爱学习，考试经常不及格，而小王是个勤奋学习的好学生，经常得满分，所以我们可以做如下假设：
事件A：小明考试及格，对应的概率 $P(x_A)=0.1$ ，信息量为 $I(x_A)=-\log(0.1)=3.3219$
事件B：小王考试及格，对应的概率 $P(x_B)=0.999$ ，信息量为 $I(x_B)=-\log(0.999)=0.0014$
可以看出，结果非常符合直观：小明及格的可能性很低(十次考试只有一次及格)，因此如果某次考试及格了（大家都会说：XXX竟然及格了！），必然会引入较大的信息量，对应的 $I$ 值也较高。而对于小王而言，考试及格是大概率事件，在事件B发生前，大家普遍认为事件B的发生几乎是确定的，因此当某次考试小王及格这个事件发生时并不会引入太多的信息量，相应的 $I$ 值也非常的低。

2.什么是熵？

那么什么又是熵呢？还是通过上边的例子来说明，假设小明的考试结果是一个0-1分布 $\mathcal{X}_A$ 只有两个取值{0：不及格，1：及格}，在某次考试结果公布前，小明的考试结果有多大的不确定度呢？你肯定会说：十有八九不及格！因为根据先验知识，小明及格的概率仅有0.1,90%的可能都是不及格的。怎么来度量这个不确定度？求期望！不错，我们对所有可能结果带来的额外信息量求取均值（期望），其结果不就能够衡量出小明考试成绩的不确定度了吗。
即：
$H_A(x)=-[p$

最低0.47元/天解锁文章

200万优质内容无限畅学