信息熵、相对熵与交叉熵

最新推荐文章于 2022-02-12 14:02:56 发布

纽约的自行车

最新推荐文章于 2022-02-12 14:02:56 发布

阅读量418

点赞数 1

分类专栏： NLP 文章标签：熵交叉熵相对熵 KL散度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27668313/article/details/120453766

版权

NLP 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

目录

1. 信息熵
2. 相对熵
3. 交叉熵
4. 交叉熵与softmax

1. 信息熵

熵是一个信息论中的概念，表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。信息熵公式如下：
$H(p)=-\sum_{i=1}^{n}{p(x_i)logp(x_i)}$
关于熵的详细解释可参考最大熵阈值分割法

2. 相对熵

相对熵又称KL散度，用于衡量对于同一个随机变量x的两个分布 $p (x)$ 和 $q (x)$ 之间的差异。 $p (x)$ 表示样本真实分布， $q (x)$ 表示模型预测分布，模型训练就是不断让 $q (x)$ 分布拟合分布 $p (x)$ 。KL散度的值越小表示两个分布越接近。KL散度公式如下：
$D_{KL}(p||q)=\sum_{i=1}^{n}{p(x_i)log\frac{p(x_i)}{q(x_i)}}$

3. 交叉熵

将KL散度变形得到如下表达式：
$\begin{aligned} D_{KL}(p||q)&=\sum_{i=1}^{n}{p(x_i)logp(x_i)}-\sum_{i=1}^{n}{p(x_i)logq(x_i)} \\ &=-H(p(x))+[-\sum_{i=1}^{n}{p(x_i)logq(x_i)}] \end{aligned}$
第一项就是 $p (x)$ 的信息熵，第二项就是交叉熵cross entropy。我们常用KL散度来评估真实标签和预测标签的差别，由于KL散度第一项是个常量，所以直接将第二项的交叉熵作为损失函数也是一样的。

4. 交叉熵与softmax

分类问题中常用交叉熵作为模型的损失函数。样本标签 y 的值为1或者0可以看做是概率，而模型的输出是一个实数值，如何将这个实数值转换成概率呢？这就要用到 softmax 函数了（所以面试官会经常问为什么交叉熵要和 softmax 一起用）。假设模型输出为 $y_1,y_2,...,y_n$ ，经过 softmax 后的输出为：
$softmax(y_i)=\frac{e^{y_i}}{\sum_{j=1}^{n}{e^{y_i}}}$
这样就把模型的输出也变成了一个概率分布，从而可以用交叉熵来计算预测值和真实值之间的距离了。

纽约的自行车

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

纽约的自行车 CSDN认证博客专家 CSDN认证企业博客

码龄9年

94: 原创

5万+: 周排名

116万+: 总排名

17万+: 访问

: 等级

2324: 积分

76: 粉丝

225: 获赞

62: 评论

840: 收藏

私信

关注

热门文章

分类专栏

NLP 11篇
spark 1篇
图数据库 13篇
Arango 12篇
图像处理 1篇
加密算法 1篇
机器学习 3篇
数据库 2篇
算法设计 60篇
python编程 3篇

最新评论

少样本 N-way K-shot
空谷传声~: 很清晰
少样本 N-way K-shot
m0_70908229: n way k shot解释错误了，测试集分为了支持集和查询集，支持集中的类别为n 样本个数为k
少样本 N-way K-shot
红胖达爱学习: 文中“在少样本领域训练集和测试集的类别不存在交叉”这句话不一定吧，TFA论文中就提到，meta learning方法的小样本目标检测中，在微调阶段，就用了少量novel类的样本
少样本 N-way K-shot
085400922: 博主，我想问一下如果我需要分类的小样本数据只有三类，那么这个N是不是最高就能选3呀，
一文解释Micro-F1, Macro-F1，Weighted-F1
叶庭云: 这篇博客主要讲解了多分类任务中的micro-f1，macro-f1，weighted-f1的概念和计算方法。首先介绍了精确率和召回率的基本概念，然后通过一个图像分类模型的例子来解释了F1的计算方法。接着详细介绍了macro-f1、weighted-f1和micro-f1的计算方法和特点。最后与sklearn库的classification_report函数进行对比，发现其中的macro avg和weighted avg与我们的计算结果一致，但没有micro avg的结果，这是因为micro-f1和accuracy的计算结果一致。同时，精确率、召回率和精度的micro avg也都等于0.60，解释了为什么sklearn分类报告只显示accuracy。最后，解释了micro-F1、accuracy、micro-precision和micro-recall等式成立的原因，即在某一类别中的False Positive样本一定是其他类别的False Negative样本。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。