【机器学习】最大熵

最新推荐文章于 2024-08-03 18:20:15 发布

verse_armour

最新推荐文章于 2024-08-03 18:20:15 发布

阅读量442

点赞数

文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/verse_armour/article/details/126311975

版权

文章目录

(一)什么是熵?

熵（entropy）：度量系统（宏观态）内在的混乱程度（微观态）

1.物理解释

玻尔兹曼提出一个系统的熵和所有可能微观状态的数目满足以下简单关系：玻尔兹曼公式

$S=K_BlnW$ 其中 $K_B$ 是玻尔兹曼常数， $W$ 是系统宏观状态中所包含的微观状态总数。

根据这个公式，我们可以将熵看作是一个系统“混乱程度”的度量，因为一个系统越混乱，可以看作是微观状态分布越均匀。

在这里插入图片描述
微观态越多（微观状态分布越均匀），其所对应的宏观态就越混乱。因此，“两红两绿”这个宏观系统最混乱。

在这里插入图片描述

2.信息论解释

（1）信息熵的定义

在统计学和机器学习中用到的熵是信息学里的信息熵。
香农对信息的定义：用以消除不确定性。
在这里插入图片描述
获取信息即指从数据中消除噪声提取信息。

信息熵：度量数据系统所包含的信息量有多少，一个随机变量的平均信息量（不等概率下，熵的加权求和）。
在这里插入图片描述

等式的左边：H指熵，度量不确定性；等式的右边：P指概率，度量确定性。所以相互转换时有一个负号。

（2）信息熵的计算：

1.原始信息：一盒彩椒
在这里插入图片描述

2.增加信息A
在这里插入图片描述

3.增加信息B
在这里插入图片描述
如何比较信息A和信息B所包含的信息量的大小？——信息增益

在这里插入图片描述

$2.03 - 1.5567 = 0.4733$ ， $1.5567 - 1 = 0.5567$ ,
$0.5567 > 0.4733$ 。
信息B的出现使信息熵减小得更多，信息B使整个信息系统更加有序，信息B所包含的信息量更大。

（二）最大熵模型

1.最大熵原理——离散分布

熵在信息论中度量的是所包含信息量的多少，最大熵即包含最多的信息量得那种情况。

在这里插入图片描述
当熵最大时，概率值相等。

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习】最大熵

最大熵
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

verse_armour 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。