深入浅出ML之Entropy-Based家族

本文转自:http://www.52caml.com/head_first_ml/ml-chapter2-entropy-based-family/

基本概念

熵与信息熵

如何理解熵的含义?

自然界的事物,如果任其自身发展,最终都会达到尽可能的平衡或互补状态。举例:

一盒火柴,(人为或外力)有序地将其摆放在一个小盒子里,如果不小心火柴盒打翻了,火柴会“散乱”地洒在地板上。此时火柴虽然很乱,但这是它自身发展的结果。

上面描述的其实是自然界的熵。在自然界中,熵可以这样表述:

熵是描述事物无序性的参数,熵越大则无序性越强。

那么,在信息论中,我们用熵表示一个随机变量的不确定性,那么如何量化信息的不确定性呢?

信息熵公式定义
在这里插入图片描述

条件熵

设X,Y为两个随机变量,在X发生的前提下,Y发生所新带来的熵 定义为Y的条件熵(Conditional Entropy),用H(Y|X)表示,计算公式如下:
在这里插入图片描述
其物理含义是当变量X已知时,变量Y的平均不确定性是多少。公式(ml.1.2.2)推导如下:
在这里插入图片描述

联合熵

一个随机变量的不确定性可以用熵来表示,这一概念可以直接推广到多个随机变量。

联合熵计算(Joint Entropy)
在这里插入图片描述
联合熵特点
在这里插入图片描述

相对熵、KL距离

相对熵概念
相对熵,又称为交叉熵或KL距离,是Kullback-Leibler散度(Kullback-Leibler Divergence)的简称。它主要用于衡量相同事件空间里的两个概率分布的差异。简单介绍其背景:
在这里插入图片描述
从公式(ml.1.2.4)可以看出,当两个概率分布完全相同时,KL距离为0。概率分布P(x)的信息熵如公式(ml.1.2.1)所示,说的是如果按照概率分布P(x)编码时,描述这个随机事件至少需要多少比特编码。

因此,KL距离的物理意义可以这样表达:
在相同的事件空间里,概率分布为P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特数。

通过信息熵可知,不存在其它比按照随机事件本身概率分布更好的编码方式了,所以D(P||Q)始终是大于等于0的。

虽然KL被称为距离,但是其不满足距离定义的3个条件:1) 非负性;2) 对称性(不满足);3) 三角不等式(不满足)。

KL距离示例
在这里插入图片描述
从示例中,我们可以得出结论:对于一个信息源进行编码,按照其本身的概率分布进行编码,每个字符的平均比特数最少。 这也是信息熵的概念,用于衡量信息源本身的不确定性。

此外可以看出,KL距离不满足对称性,即D(P||Q)不一定等于D(Q||P)。

相对熵应用场景
推荐系统-物品之间相似度
在这里插入图片描述
如果说相对熵(KL)距离衡量的是相同事件空间里的两个事件的相似度大小,那么,互信息通常用来衡量不同事件空间里的两个信息(随机事件、变量)的相关性大小。

互信息计算公式

在这里插入图片描述
公式解释:
互信息就是随机事件X的不确定性(即熵H(X)),以及在给定随机变量Y条件下的不确定性(即条件熵H(X|Y))之间的差异,即I(X;Y)=H(X)−H(X|Y)(n.ml.1.2.7)
互信息与决策树中的信息增益等价: 互信息 ⟺ 信息增益.

所谓两个事件相关性的量化度量,就是在了解了其中一个事件Y的前提下,对消除另一个事件X不确定性所提供的信息量。

互信息与其它熵之间的关系
H(X|Y)=H(X,Y)−H(Y)
I(X;Y)=H(X)+H(Y)−H(X,Y)
I(X;Y)=H(X)−H(X|Y)
I(X;X)=H(X)

互信息应用场景
在这里插入图片描述

最大熵模型(Maximum Entropy Model)

最大熵原理

在介绍最大熵模型之前,我们先了解一下最大熵原理,因为最大熵原理是选择最优概率模型的一个准则。

最大熵原理:在概率模型空间集合中,在满足给定约束条件的前提下,使信息熵最大化得到的概率模型,就是最优的模型。

通常用约束条件来确定概率模型的集合。


理解最大熵原理

假设离散随机变量X的概率分布是P(X),其信息熵可用公式(ml.1.2.1) 表示,并且熵满足以下不等式:
在这里插入图片描述
其中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号才成立。也就是说,当X服从均匀分布时,熵最大。

根据最大熵原理学习概率模型坚持的原则:首先必须满足已有的事实,即约束条件;但对不确定的部分不做任何假设,坚持无偏原则。最大熵原理通过熵的最大化来表示等可能性。

最大熵原理举例(本示例来自《统计学习方法》第6章-李航老师)
在这里插入图片描述

最大熵模型定义

最大熵原理是统计学习的一般原理,将它应用到分类问题中,即得到最大熵模型。

最大熵模型引入
在这里插入图片描述
首先,考虑模型应满足的条件
在这里插入图片描述
特征函数(Feature Function)
定义特征函数 f(x,y)用于描述输入x和输出y之间满足的某一种事实:
在这里插入图片描述
最大熵模型定义
假设满足所有约束条件的模型集合为:
在这里插入图片描述
定义在条件概率分布P(y|x)上的条件熵为:
在这里插入图片描述
模型集合C中条件熵H§最大的模型称为最大熵模型。

注:最大熵模型中log是指以e为底的对数,与信息熵公式中以2为底不同。本文如无特殊说明,log均指自然对数。

最大熵模型参数学习

最大熵模型学习过程即为求解最大熵模型的过程,最大熵模型的学习问题可以表示为带有约束的最优化问题。

示例:学习《最大熵原理》示例中的最大熵模型

为了简便,这里分别以y1,y2,y3,y4,y5表示A,B,C,D和E,最大熵模型学习的最优化问题可以表示为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最大熵模型学习一般流程
在这里插入图片描述
求解约束最优化问题(ml.1.2.13)所得出的解,就是最大熵模型学习的解。

将约束最优化的原始问题转换为无约束最优化的对偶问题。具体推导过程如下:

在这里插入图片描述
通俗的讲,由_最小最大问题_转化为_最大最小问题_。

由于最大熵模型对应的朗格朗日函数L(P,w)是参数P的凸函数,所以原始问题(ml.1.2.15)的解与对偶问题(ml.1.2.16)的解是等价的。因此,可以通过求解对偶问题来得到原始问题的解。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后,求解对偶问题外部的极大化问题

对偶问题外部极大化表达式:
在这里插入图片描述

对偶函数极大化与极大似然估计等价

从最大熵模型的学习过程可以看出,最大熵模型是由n.ml.1.2.14和n.ml.1.2.15表示的条件概率分布。下面证明:对偶函数的极大化等价于最大熵模型的极大似然估计。

对偶函数极大化=极大似然估计
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
比较公式(ml.1.2.20)和(ml.1.2.21),可以发现:
在这里插入图片描述
总结:最大熵模型的学习问题就转化为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更为一般的形式:
在这里插入图片描述
小结:

①. 最大熵模型与LR模型有类似的形式,它们又称为对数线性模型(Log Linear Model)。
②. 模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

参数学习的最优化问题

已知偶函数极大化与极大似然估计等价,那么LR模型、最大熵模型的学习问题可以归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解(非闭式解)。

从最优化的角度来,此时的目标函数具有良好的性质:光滑的凸函数。因此多种最优化方法都适用,并且能保证找到全局最优解。常用的方法有改进的迭代尺度法(Improved Iterative Scaling, IIS)、梯度下降法(SGD、mini-batch GD等)、共轭梯度法、拟牛顿法等。

更多案例请关注“思享会Club”公众号或者关注思享会博客:http://gkhelp.cn/

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值