交叉熵损失函数学习笔记

交叉熵损失函数

交叉熵是信息论中的一个重要概念,主要用户度量两个概率分布间的差异性,要理解交叉熵,需要了解下面几个概念。

1 信息量

信息论奠基人香农认为信息是用来消除随机不确定性的东西,也就是说衡量信息量的大小就看信息消除不确定性的程度。

“太阳从东边升起”,这条信息没有减少不确定性,因为太阳一直都是从东边升起,所以这条信息的信息量为0。

“2020年中国队成功进入世界杯”,因为中国进入世界杯的不确定性很大,而这句话消除了2020年中国进入世界杯的不确定性,所以这条信息的信息量很大。

综上:信息量的大小与信息发生的概率成反比,即概率越大,信息量越小;概率越小,信息量越大。

假设某一事件发生的概率为 P(x),其信息量为:

I ( x ) = − l o g ( P ( x ) ) I(x)=-log(P(x)) I(x)=log(P(x))

其中 I ( x ) I(x) I(x) 为信息量, l o g log log 为以 e 为底的自然对数。

2 信息熵

信息熵也被称为熵,用来表示 所有信息量的期望

期望是实验中每次可能结果的概率乘以其结果总和

所有信息量的熵可表示为:

H ( x ) = − ∑ i = 1 n P ( x i ) I ( x i ) = − ∑ i = 1 n P ( x i ) l o g ( P ( x i ) ) (   X = x 1 , x 2 , … … , x n ) H(x)=-\sum_{i=1}^{n} P(x_i)I(x_i)=-\sum_{i=1}^n P(x_i)log(P(x_i)) \tag{ $X=x_1, x_2, ……,x_n$} H(x)=i=1nP(xi)I(xi)=i=1nP(xi)log(P(xi))( X=x1,x2,,xn)

这是的 X 表示一个离散随机变量。

在这里插入图片描述

3 相对熵(KL散度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YEpIQQSO-1606186220112)(img/image-20201122170918209.png)]

4 交叉熵

在这里插入图片描述

4.1 二分类

在二分类中,交叉熵损失函数表达式为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mz9yK5T9-1606186220117)(img/image-20201124104407273.png)]

4.2 多分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JDr1pBjt-1606186220120)(img/image-20201124104433810.png)]

5 小结

交叉熵背后还有相对熵(KL散度),它可以衡量两个分布 P(x) 和 Q(x) 之间的差异,这与机器学习中使预测的分布和样本分布尽量相似的目标不谋而合。P(x) 和 Q(x) 之间的相对熵 = P(x) 和 Q(x) 的交叉熵 - P(x) 的信息熵,而在机器学习训练过程中,P(x) 的分布往往是已知的,所以 P(x) 的信息熵是一个固定值,因此,经常直接使用交叉熵作为损失函数。

6. 参考资料

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值