【机器学习】最大熵

(一)什么是熵?

熵(entropy):度量系统(宏观态)内在的混乱程度(微观态)

1.物理解释

玻尔兹曼提出一个系统的熵和所有可能微观状态的数目满足以下简单关系:玻尔兹曼公式

S = K B l n W S=K_BlnW S=KBlnW 其中 K B K_B KB是玻尔兹曼常数, W W W是系统宏观状态中所包含的微观状态总数。

根据这个公式,我们可以将熵看作是一个系统“混乱程度”的度量,因为一个系统越混乱,可以看作是微观状态分布越均匀。

在这里插入图片描述
微观态越多(微观状态分布越均匀),其所对应的宏观态就越混乱。因此,“两红两绿”这个宏观系统最混乱。

在这里插入图片描述

2.信息论解释

(1)信息熵的定义

统计学机器学习中用到的熵是信息学里的信息熵
香农对信息的定义:用以消除不确定性。
在这里插入图片描述
获取信息即指从数据中消除噪声提取信息

信息熵:度量数据系统所包含的信息量有多少,一个随机变量的平均信息量(不等概率下,熵的加权求和)。
在这里插入图片描述

等式的左边:H指熵,度量不确定性; 等式的右边:P指概率,度量确定性。 所以相互转换时有一个负号。

(2)信息熵的计算:

1.原始信息:一盒彩椒
在这里插入图片描述

2.增加信息A
在这里插入图片描述

3.增加信息B
在这里插入图片描述
如何比较信息A和信息B所包含的信息量的大小?——信息增益

在这里插入图片描述

2.03 − 1.5567 = 0.4733 2.03-1.5567=0.4733 2.031.5567=0.4733 1.5567 − 1 = 0.5567 1.5567-1=0.5567 1.55671=0.5567,
0.5567 > 0.4733 0.5567>0.4733 0.5567>0.4733
信息B的出现使信息熵减小得更多,信息B使整个信息系统更加有序,信息B所包含的信息量更大。

(二)最大熵模型

1.最大熵原理——离散分布

熵在信息论中度量的是所包含信息量的多少,最大熵即包含最多的信息量得那种情况。

在这里插入图片描述
当熵最大时,概率值相等。

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

verse_armour

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值