交叉熵损失相关概念的简单理解

交叉熵损失相关概念的简单理解

1.信息量

衡量信息量的大小是看这个信息消除不确定性的程度。

举例来说,随便说一句话,话中阐述的事情发生的可能性越大,那么这句话所包含的信息量就越小。

更具体点说,“明天地球会继续绕着太阳转的同时保持自转”,这种正确的废话,毫无信息量。而“明天地球就要停转了”,这句话所蕴含的事情几乎不可能发生,所以信息量反而很大。

定性来说,信息量的大小与信息中包含事件发生的概率成反比。

定量来说,计算信息量的公式如下,P(x)是信息中蕴含事件的发生概率。

在这里插入图片描述


2.信息熵

信息熵用来表示信源所有信息量的期望。

信息熵计算公式如下

在这里插入图片描述

信息熵是对事件不确定度的一种度量。信息熵越大,说明事物越具有不确定性。信息量是消除不确定性的程度,综上而信息熵的大小则体现了事件的不确定程度。一个是消除,一个是体现。


实际上,前面的有个大概的概念就行,并非关键。接下来的才是关键。


3.相对熵(KL散度)

回想一下,能用到softmax + corss entropy的情况基本上就是分类问题。而分类问题衡量的关键正是通过softmax获得的置信度分布与独热码间的相似程度,因此急需一个衡量两组数据(概率分布)相似程度的工具。这就引出了相对熵。

对于同一个随机变量X有两个概率分布 P ( x ) 和 Q ( x ) (为方便理解不妨认为P(X)是独热编码,Q(X)是softmax输出的置信度分布),则相对熵(KL散度)就可以很好的衡量这两个概率分布之间的差异。

相对熵的公式如下

在这里插入图片描述

由上式不难发现,相对熵越小,说明两个分布越接近。


4.交叉熵

既然有了相对熵为什么还要搞一个交叉熵,大概是为了简化计算。

先把相对熵的式子展开来看

在这里插入图片描述

显然H(P(X))是P(X)的信息熵,而P(X)是X的真实分布(独热编码)是个已经确定的数据,因此它的信息熵应该是个常数,与Q(X)的变化无关,因此它对衡量P(X),Q(X)的相似程度是没有贡献的,只是徒增计算量罢了。所以干脆就不要管它,只算中括号中的那部分就好了。

中括号的那部分正是交叉熵。

正式给出交叉熵的定义

在这里插入图片描述

同相对熵类似,两个分布越是接近,其交叉熵就越小。


5.softmax

softmax在机器学习上的最大意义就是确保各个预测结果的概率之和等于1。(更符合概率论的观点,也更容易与独热编码计算)

其公式为

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值