交叉熵（Cross-Entropy）

最新推荐文章于 2025-04-02 22:17:32 发布

rtygbwwwerr

最新推荐文章于 2025-04-02 22:17:32 发布

阅读量10w+

点赞数 307

分类专栏：机器学习文章标签：机器学习算法理论基础

本文链接：https://blog.csdn.net/rtygbwwwerr/article/details/50778098

版权

交叉熵（Cross-Entropy）

交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。

1.什么是信息量？

假设 $X$ 是一个离散型随机变量，其取值集合为 $\mathcal{X}$ ，概率分布函数为 $p(x)=Pr(X=x),x∈\mathcal{X}$ ，我们定义事件 $X=x_0$ 的信息量为：
$I(x_0)=-log(p(x_0))$ ，可以理解为，一个事件发生的概率越大，则它所携带的信息量就越小，而当 $p(x_0)=1$ 时，熵将等于0，也就是说该事件的发生不会导致任何信息量的增加。举个例子，小明平时不爱学习，考试经常不及格，而小王是个勤奋学习的好学生，经常得满分，所以我们可以做如下假设：
事件A：小明考试及格，对应的概率 $P(x_A)=0.1$ ，信息量为 $I(x_A)=-\log(0.1)=3.3219$
事件B：小王考试及格，对应的概率 $P(x_B)=0.999$ ，信息量为 $I(x_B)=-\log(0.999)=0.0014$
可以看出，结果非常符合直观：小明及格的可能性很低(十次考试只有一次及格)，因此如果某次考试及格了（大家都会说：XXX竟然及格了！），必然会引入较大的信息量，对应的 $I$ 值也较高。而对于小王而言，考试及格是大概率事件，在事件B发生前，大家普遍认为事件B的发生几乎是确定的，因此当某次考试小王及格这个事件发生时并不会引入太多的信息量，相应的 $I$ 值也非常的低。

2.什么是熵？

那么什么又是熵呢？还是通过上边的例子来说明，假设小明的考试结果是一个0-1分布 $\mathcal{X}_A$ 只有两个取值{0：不及格，1：及格}，在某次考试结果公布前，小明的考试结果有多大的不确定度呢？你肯定会说：十有八九不及格！因为根据先验知识，小明及格的概率仅有0.1,90%的可能都是不及格的。怎么来度量这个不确定度？求期望！不错，我们对所有可能结果带来的额外信息量求取均值（期望），其结果不就能够衡量出小明考试成绩的不确定度了吗。
即：
HA(x)=−[p(xA)log(p(xA))+(1−p(xA))log(1−p(xA))]=0.4690

最低0.47元/天解锁文章