【随笔】暴力、通透讲解：信息熵 & 交叉熵

最新推荐文章于 2022-04-29 18:50:37 发布

远行人_Xu

最新推荐文章于 2022-04-29 18:50:37 发布

阅读量221

点赞数

分类专栏：机器学习算法文章标签：信息熵交叉熵机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38100489/article/details/106976958

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

首发地址：https://zhuanlan.zhihu.com/p/68363765

本文是随笔哈，想到哪里写到哪里。

------------------------ 割 -------------------------

在这里插入图片描述
上面公式是信息熵公式，“热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。”

那为什么上述公式就能代表某事情的不确定程度呢？（或者叫混乱程度）？？怎么做到的呢？？？？

我在上学学概率时候就是楞背下来公式的，老师讲的、书里写的都太抽象了，联系公式最初的应用场景就能很容易说清：

！！！上面公式的应用场景是——拍电报！！！

p(x)是概率，log(p(x))是什么呢？？别说那数学概念和抽象意义。说实在的。

log(p(x))不知道，但是如果把公式最外头的负号揉进来变成log(1/p(x))就有实际意义了，

在这里插入图片描述
是指拍电报时需要几个bit（拍几下电报机）才能表示这件事。比如，A这件事概率是1/8，那么最“正常”情况下，发生8件事才能出现一次A这件事，列举这8件事至少需要3个bit，（000, 001， 010， 011， 100， 101， 110， 111），即“电报的码长”是3。所以，由概率是1/8，到电报的码长”是3，需要取log2。

（我猜，这也就是类似各种信息论的公式中log底数都是2而非e的原因！我面试京东就答错过！当然人家没问原因啊。）

信息熵 = sigma （概率 * 其对应的电报码长）

换成文字逻辑：把每种可能情况出现的概率和这种情况对应的电报码长相乘，所有情况的乘积相加。

更进一步的逻辑：（把一系列码长乘以各自的概率，那就是）各情况下的电报码长的平均值。

再进一步：这事儿平均下来需要几个电报码长（bit 比特）能表达清楚（也就是表达所有可能的情况）。————这就是“信息熵”的现实意义！

（哈夫曼编码不就是为了缩短码长才创造出来的吗？）

------------------ 割 ----------------

交叉熵公式：

在这里插入图片描述
有个说法是“交叉熵指的是当你用B作为密码本来表示A时所需要的“平均的编码长度”。”

也就是，B系列里的所有事件对应的“码长”用A系列中的可能性得到其平均码长。

------------------ 割 ----------------

KL散度：

在这里插入图片描述
等于 “交叉熵 - 信息熵”，确切说是“B编码下A的交叉熵 - A的信息熵”，即“用B编码表示A 和用A编码表示A 的码长之差”，也即“用B编码表示A的平均码长，与正常情况相比，长了多少。”当然是越小越好。

如果对您有帮助，请点赞！谢谢！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【随笔】暴力、通透讲解：信息熵 & 交叉熵

收发地址：https://zhuanlan.zhihu.com/p/68363765本文是随笔哈，想到哪里写到哪里。------------------------ 割 -------------------------上面公式是信息熵公式，“热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。”那为什么上述公式就能代表某事情的不确定程度呢？（或者叫混乱程度）？？怎么做到的呢？？？？我在上学学概率时候就是楞背下来公式的，老师讲的、书里写的都太抽象了，联系公式最初
复制链接

扫一扫

专栏目录

远行人_Xu CSDN认证博客专家 CSDN认证企业博客

码龄7年

41: 原创

11万+: 周排名

183万+: 总排名

18万+: 访问

: 等级

1436: 积分

17: 粉丝

121: 获赞

50: 评论

253: 收藏

私信

关注

热门文章

分类专栏

NLP 13篇
风控 1篇
深度学习 1篇
python 6篇
numpy-python-2-7 1篇
机器学习--回归
sklearn 1篇
xgboost 2篇
实例 1篇
kaggle 1篇
pymysql 1篇
keras 2篇
opencv 1篇
tensorflow 3篇
时间格式 1篇
决策树及衍生 2篇
机器学习算法 5篇
GBDT 1篇

最新评论

EDA 文本增强（和我的思考）
xiaobaiyang_baiyang: 请问博主，我的文本数据中有一类文本数据特别的少，您有尝试过只对某一类文本数据进行增强吗？或者说这类数据增加的倍数和其他类数据增加的倍数不同
【已解决】pip成功安装模块（如uvicorn）后，无法在命令行中使用（-bash: uvicorn: command not found）
Daletxt: 还有另一个可能原因是uvicorn版本问题，调整到相应的版本
【已解决】pip成功安装模块（如uvicorn）后，无法在命令行中使用（-bash: uvicorn: command not found）
Daletxt: [code=plain] python -m uvicorn main:app --reload [/code] https://stackoverflow.com/questions/59025891/uvicorn-is-not-working-when-called-from-the-terminal
【已解决】notepad++ 连不上服务器
nananani: 哥们你是真牛啊我找一天了真是这个原因感恩！！
from datasets import load_dataset 下不下来，怎么办？
CSDN-Ada助手: Hi 博主，看到您遇到了问题，但不要灰心丧气哦！我们相信您一定可以找到解决方案。我们建议您写一篇关于Python数据集加载和处理的技术博文，介绍如何使用Python中的load_dataset方法加载数据集，包括如何解决无法下载的问题。同时，你也可以分享其他常见的数据集加载方法和数据处理技巧，帮助更多的Python开发者提高工作效率。期待您的精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。