机器学习(第8章信息论模型)

komjay

于 2023-12-18 22:18:19 发布

阅读量102

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komjay/article/details/135072074

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、学习目标

1.了解信息论相关定义

2.了解熵、最大熵、互信息在机器学习中的运用

3.学习信息论优化模型的优化过程

二、信息论相关知识

信息论之父，也是信息论创始人，香农，将物理学中的熵概念引入到信息论中，引起的影响十分的强大。

相关定义有：

三、熵、最大熵在机器学习中的应用

1.信息量与信息熵的定义

要注意,信息量用于描述是一个变量取值的，比如：北京明天天气=下雪。而信息熵用于描述一个变量的，例如北京明天天气。

之所以说微分熵不是信息熵，是因为信息熵应该计算概率值，而微分熵公式中的“概率值”并不是概率值，其是连续概率分布上的取值。真正的概率值是p(x)*δx，其中δx是一个极小的值。而真正的连续概率分布的信息熵推导如下：

如红字所写，微分熵可以用于对比，但不能等价于信息熵。（红字错写成信息量了）

2.微分熵性质

3.最大熵

在自然界，分子的运动总是往熵增的方向运动，当熵达到最大时，分子运动达到稳态。于是可以认为，最大熵状态是一切事物的最优状态。

在机器学习中，并不是说只要求最大熵就行，而是需要进行一定的限制设置。如下设置：

使用拉格朗日法消去约束条件，并求导等于0，可以求解出连续变量的最优解：

特别地，对于离散问题，变量分布式均匀分布时熵最大。

对于确定了均值和方差的连续分布，最优解是高斯分布：

四、互信息

1.条件信息量和条件熵

2.联合熵

3.互信息

4.互信息和熵之间关系

更详细的见解可以看红字描述部分。左边图还看不明白的可以看下面的图：

5.互信息和相对熵的性质

通过相对熵，我们可以再重新定义互信息：（这样的定义容易帮助我们去计算多个变量的互信息，之前的定义不好计算）

五、信息论优化模型

信息论优化模型有三种类型，我们主要讲最大熵模型：

最大熵模型最大化的是条件熵，将条件熵化开并替换P(x)，就得到我们的目标函数。然后再加入约束条件：

约束项的第一条约束的作用是将统计得到的某些特征保存下来，比如“x与y相等的情况恒为20次”，于是我们需要映入这些特征函数：（“某一事实”就根据我们的需求来设置）

列出我们的优化公式，并使用拉格朗日法消除约束条件：

原问题难以求解，于是列出原问题的对偶问题来求解问题：

对偶问题会求出一个p，这个p包含了w变量，将p代回对偶问题的式子中，就可以消去p，再去求解w。求出w再代入p的式子中，从而求解出p。

六、总结

重点学习熵相关定义和最大熵模型的优化过程。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习(第8章信息论模型)

要注意,信息量用于描述是一个变量取值的，比如：北京明天天气=下雪。而信息熵用于描述一个变量的，例如北京明天天气。之所以说微分熵不是信息熵，是因为信息熵应该计算概率值，而微分熵公式中的“概率值”并不是概率值，其是连续概率分布上的取值。真正的概率值是p(x)*δx，其中δx是一个极小的值。而真正的连续概率分布的信息熵推导如下：如红字所写，微分熵可以用于对比，但不能等价于信息熵。（红字错写成信息量了）重点学习熵相关定义和最大熵模型的优化过程。
复制链接

扫一扫

专栏目录

komjay CSDN认证博客专家 CSDN认证企业博客

码龄5年

54: 原创

117万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

779: 积分

189: 粉丝

236: 获赞

20: 评论

327: 收藏

私信

关注

热门文章

分类专栏

最新评论

第三章混合推荐系统和推荐系统评价标准
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
算法中的最优化方法与实现（第2课线性规划）
CSDN-Ada助手: 恭喜作者继续分享关于算法最优化方法与实现的知识，这对于学习算法的读者来说是非常宝贵的资源。希望作者在未来的创作中能够深入探讨一些实际案例，结合具体的应用场景来解释算法的实现过程，这样读者们会更容易理解和应用所学到的知识。期待作者的下一篇文章！
自然语言处理(第17课文本分类和聚类)
eeet9: 作者您好，您也是国科大学生吗
机器学习（第2章贝叶斯理论与应用）
CSDN-Ada助手: 非常感谢您分享这篇关于机器学习中贝叶斯理论与应用的博客！您的持续创作让我们受益良多。希望您能继续深入探讨机器学习领域的其他重要理论和应用，比如深度学习或者神经网络等，这些内容也将对我们有很大的帮助。期待您的下一篇精彩内容！
自然语言处理(第3课形式语言与自动机)
CSDN-Ada助手: 非常感谢作者的辛勤劳动，第10篇博客内容丰富，尤其是关于自然语言处理中形式语言与自动机的讲解让我受益匪浅。希望作者能够继续坚持创作，不断分享自己的学习心得和见解。下一步建议可以尝试结合实际案例或者应用场景，让读者更加直观地理解相关概念。期待作者更多精彩的文章，谢谢！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。