机器学习14 熵

狂奔的CD

已于 2022-05-27 19:50:43 修改

阅读量420

点赞数

分类专栏： AI 文章标签：人工智能概率论

于 2022-05-19 16:35:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kkae8643150/article/details/124865930

版权

AI 专栏收录该内容

52 篇文章 3 订阅

订阅专栏

正文

用熵来评估一个系统的复杂程度。对于分类问题，分类越多，信息熵越大，分类越少，信息熵越小。

信息熵理解与推导

参考 https://zhuanlan.zhihu.com/p/26486223

在这里插入图片描述
1）信息量推理过程
核心思想：信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如湖南产生的地震了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起（肯定发生嘛概率为1，信息量0）。小概率事件发生时，信息量很大。
如果我们有俩个不相关的事件x和y，那么我们观察到的俩个事件同时发生时获得的信息量h(x)应该等于观察到的事件各自发生时获得的信息之和，即：
h(x,y) = h(x) + h(y)

由于x，y是俩个不相关的事件，那么概率P满足p(x,y) = p(x)*p(y).

根据核心思想，概率越大，信息量越少，这两者之间有某种非线性关系。我们很容易看出h(x)一定与p(x)的对数有关（因为只有对数形式的真数相乘之后，能够对应对数的相加形式，可以试试）。因此我们有信息量公式如下：
在这里插入图片描述

在这里插入图片描述

下面解决俩个疑问？

（1）为什么有一个负号

其中，负号是为了确保信息一定是正数或者是0，总不能为负数吧！（概率区间0-1，信息量区间为>0）

（2）为什么底数为2

这是因为，我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统，使用2作为对数的底！

2）信息熵推理过程
核心思想：用熵来评估一个系统的复杂程度。对于分类问题，分类越多，信息熵越大，分类越少，信息熵越小。
在这里插入图片描述

n=1时， p=1, logp = 0 , H=0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习14 熵

正文用熵来评估一个系统的复杂程度。对于分类问题，分类越多，信息熵越大，分类越少，信息熵越小。信息熵理解与推导参考 https://zhuanlan.zhihu.com/p/264862231）信息量推理过程核心思想：信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如湖南产生的地震了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起（肯定发生嘛概率为1，信息量0）。小概率事件发生时，信息量很大。如果我们有俩个不相关的事件x和y，那么我们观察到的俩个事件同时发生时获得
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。