机器学习(第8章 信息论模型)

一、学习目标

1.了解信息论相关定义

2.了解熵、最大熵、互信息在机器学习中的运用

3.学习信息论优化模型的优化过程

二、信息论相关知识

        信息论之父,也是信息论创始人,香农,将物理学中的熵概念引入到信息论中,引起的影响十分的强大。

        相关定义有:

三、熵、最大熵在机器学习中的应用

        1.信息量与信息熵的定义

         要注意,信息量用于描述是一个变量取值的,比如:北京明天天气=下雪。而信息熵用于描述一个变量的,例如北京明天天气。

        之所以说微分熵不是信息熵,是因为信息熵应该计算概率值,而微分熵公式中的“概率值”并不是概率值,其是连续概率分布上的取值。真正的概率值是p(x)*δx,其中δx是一个极小的值。而真正的连续概率分布的信息熵推导如下:

        如红字所写,微分熵可以用于对比,但不能等价于信息熵。(红字错写成信息量了)

        2.微分熵性质

        3.最大熵

        在自然界,分子的运动总是往熵增的方向运动,当熵达到最大时,分子运动达到稳态。于是可以认为,最大熵状态是一切事物的最优状态。

        在机器学习中,并不是说只要求最大熵就行,而是需要进行一定的限制设置。如下设置:

        使用拉格朗日法消去约束条件,并求导等于0,可以求解出连续变量的最优解:

        特别地,对于离散问题,变量分布式均匀分布时熵最大。

         对于确定了均值和方差的连续分布,最优解是高斯分布:

 

 

 四、互信息

        1.条件信息量和条件熵

         2.联合熵

        3.互信息

         4.互信息和熵之间关系

         更详细的见解可以看红字描述部分。左边图还看不明白的可以看下面的图:

         5.互信息和相对熵的性质

 

        通过相对熵,我们可以再重新定义互信息:(这样的定义容易帮助我们去计算多个变量的互信息,之前的定义不好计算)

五、信息论优化模型

        信息论优化模型有三种类型,我们主要讲最大熵模型:

         最大熵模型最大化的是条件熵,将条件熵化开并替换P(x),就得到我们的目标函数。然后再加入约束条件:

         约束项的第一条约束的作用是将统计得到的某些特征保存下来,比如“x与y相等的情况恒为20次”,于是我们需要映入这些特征函数:(“某一事实”就根据我们的需求来设置)

        列出我们的优化公式,并使用拉格朗日法消除约束条件:

         原问题难以求解,于是列出原问题的对偶问题来求解问题:

        对偶问题会求出一个p,这个p包含了w变量,将p代回对偶问题的式子中,就可以消去p,再去求解w。求出w再代入p的式子中,从而求解出p。

六、总结

重点学习熵相关定义和最大熵模型的优化过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值