交叉熵、熵和相对熵的通俗易懂解释

本文深入浅出地介绍了交叉熵、熵和相对熵(KL散度)这三个机器学习中重要的概念。首先,定义了自信息,并通过实例解释了自信息如何衡量事件发生的意外性。接着,阐述了熵的概念,它是衡量随机变量不确定性的一个量,通过计算不同概率分布的熵,展示了不确定性与熵的关系。然后,详细讲解了相对熵(KL散度),它衡量了两个概率分布之间的差异。最后,探讨了交叉熵在逻辑回归中的应用,以及为何在机器学习中选择交叉熵作为损失函数,而非平方损失函数。
摘要由CSDN通过智能技术生成

版权声明:本文为博主原创文章,未经博主允许不得转

交叉熵(Cross-Entropy)

交叉熵是一个在机器学习领域经常提到的概念。它经常用作代价(损失)函数,而均方误差或平均绝对误差在使用梯度优化的方法时往往效果不佳,一些饱和的神经网络输出单元结合这些代价函数时会产生非常小的梯度,这也是交叉熵代价函数比均方误差或平均绝对误差更受欢迎的原因。在学习交叉熵之前,我们先来了解下其他的基础概念:

1.什么是自信息(self-information)?

定义:假设 X X 是一个离散型随机变量,其取值集合为 χ ,概率分布函数为 p(x)=P(X=x),xχ p ( x ) = P ( X = x ) , x ∈ χ ,我们定义事件 X=x0 X = x 0 的自信息为:

I(x0)=log(p(x0)) I ( x 0 ) = − l o g ( p ( x 0 ) )

可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小,而当 p(x0)=1 p ( x 0 ) = 1 时,熵将等于0,也就是说该事件的发生包含的信息量小。
举个例子,小明平时不爱学习,考试经常不及格,而小王是个勤奋学习的好学生,经常得满分,所以我们可以做如下假设:
事件A:小明考试及格,对应的概率 P(xA)=0.1 P ( x A ) = 0.1 ,信息量为 I(xA)=log(0.1)=3.3219 I ( x A ) = − l o g ( 0.1 ) = 3.3219 .
事件B:小王考试及格,对应的概率 P(xB)=0.999 P ( x B ) = 0.999 ,信息量为 I(xB)=log(0.999)=0.0014 I ( x B ) = − l o g ( 0.999 ) = 0.0014

可以看出,结果非常符合直观:小明及格的可能性很低(十次考试只有一次及格),因此如果某次考试及格了(大家都会说:XXX竟然及格了!),必然会引入较大的信息量,对应的 I I 值也较高。而对于小王而言,考试及格是大概率事件,在事件B发生前,大家普遍认为事件B的发生几乎是确定的,因此当某次考试小王及格这个事件发生时并不会引入太多的信息量,相应的 I 值也非常的低。

2.什么是熵(Entropy)?

定义:对于一个随机变量 X X 而言,它的所有可能取值的信息量的期望( E [ I ( x ) ] )就称为熵。
X X 是离散的:

H ( X ) = E [ I ( x ) ] = x X p ( x ) l o g p ( x )
X X 是连续的随机变量:熵定义为:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值