机器学习经典损失函数复习：交叉熵（Cross Entropy）和KL散度

最新推荐文章于 2024-06-11 08:29:43 发布

MAUM

最新推荐文章于 2024-06-11 08:29:43 发布

阅读量786

点赞数 2

分类专栏：基础知识机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maum61/article/details/97937413

版权

基础知识同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

目录

时间一长就忘记了，今天看见缩写CE，突然有点陌生，写个图文并茂的博客加深一下印象。

1 交叉熵

交叉熵，在机器学习中广泛用于衡量两个分布的相似度：

交叉熵一般跟在softmax处理之后，softmax的输出是0-1之间的正数序列，可以认为是概率分布函数。对于分类问题，一般会输出这张图片对应于每一个分类的概率，使概率分布与真实的label(one-hot编码)接近。

看一下两个分布，假设长度是100，序列x的第40个数强制置为5，其他数是0-1之间的随机数，y也一样的配置：

图1

然后进行softmax:

那么交叉熵H(x|y)和H(y|x)分别是3.1775和3.1808。这个交叉熵是比较大的。

我们再将第40个数增加到10：

图2

这时候其他值就很接近于0，这时候的交叉熵H(x|y)和H(y|x)分别是0.0846和0.0825。

也就是说，当两个概率分布几乎相等时，交叉熵才接近于0，否则较大。

但是对于分类来说，第一个图的结果已经不错了，可以很好的进行分类。

2 KL散度

KL散度，本名是相对熵，相对于谁？本身的信息熵！这就很好理解了：

变形为：

后面减去的H(P)就是自己的信息熵。

之前做的是交叉熵，好奇心驱使我计算一下对应的熵（也就是信息熵），对于第一幅图，H(x)=3.1511, H(y) = 3.1430。如果用H(x|y)和H(y|x)分别减去对应的熵，那么

H(x|y)-H(x)=0.0428

H(y|x-H(y)=0.0421

对于第二幅图：H(x)=0.0784, H(y) = 0.0810，

H(x|y)-H(x)=6.5000e-04

H(y|x-H(y)=6.6702e-04

H(x)是什么意思呢？就是分布x与自己的一个熵，也就是说，自己表示自己也是需要很多信息量的。因此，使用二者的差去衡量两个分布的相似度，会更客观。这个比较容易理解了，因为上面两幅图，效果都已经达到了分类要求，只不过图2比图1逼近程度更好。但是使用交叉熵，二者的区别很大（无论是H(x|y)或是H(y|x)），前者是>3的值，而后者仅为<0.09的数，相差近30倍。而使用KL散度，得到的相对差异值，前者是0.0428，后者是0.00065，虽然倍数也是几十倍，但是二者都很小。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习经典损失函数复习：交叉熵（Cross Entropy）和KL散度

满心欢喜想运行一下faster R-CNN，结果前路坎坷。先不说运行faster R-CNN了，先配置好caffe环境吧。（官网说好的all-in-one）我以为直接就能运行例程了，原来只是预装了这三个：CUDA、OpenCV和CuDNN）编译caffe需要很多依赖关系，特别是版本升级后，使用jetpack3.3时，更多的库以及路径需要指定。caffe的基本安装步骤不变，参考之前的文章：...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。