逻辑回归模型_从最大熵模型解释逻辑回归

我们都是小怪兽,终有一天,都会被正义的奥特曼杀死。

逻辑回归与最大熵模型

1 逻辑回归

1.1 Logistic Regression的模型定义

上述中

等价于
,之后不再一一赘述。

1.2 Logistic Regression解决何种问题

我们需要知道的是,LR模型解决的是分类问题,但是其命名为回归,这与几率这一概念的定义不无关系。几率(odds)是指该事件发生的概率与该事件不发生的概率的比值,如果一个事件发生的概率为

,那么其几率为:
,该事件的对数几率为:

而对于

而言,将1.1中两式代入,获取其对数几率为:

上式意义在于,

模型中输出
的对数几率为输出
的线性函数,这也是
模型明明是解决分类问题,却被命名为回归的由来(当然,这个其实就科普一下,没有啥实质性意义)。

1.3 Logistic Regression模型参数估计

模型的参数估计,使用了极大似然估计法,设有以下定义:

则,其似然函数为:

为解决连乘最后数值过小的问题,将连乘转化为连加,即取其对数,则对数似然函数如下:

在此基础上,对

求极大值,得到
的估计值。

至此,问题就变成以对数似然函数为目标函数的最优化问题,

学习中一般采用的方法是梯度下降法及拟牛顿法,可根据上述目标函数进行梯度求解,在这里不再一一赘述。那么通过上述方法,假设
的极大似然估计值是
,那么学到的
模型为:

1.4 Logistic Regression模型的一点思考

模型被广泛使用于分类任务,其由sigmoid函数将
的结果映射到
,这一操作,好像将大部分人都带入一个误区,映射到
就成为了概率,但是为什么$LR$模型计算出来的值可以作为一个概率呢?似乎很少有人去探讨。笔者经过一段时间的学习,最终觉得两个解释颇为合理,其中解释一建立来朴素贝叶斯模型的基础上,对于条件概率的由来经过一系列的公式推导,最终得出
模型计算出来的就是分类的概率值这一结论。考虑到在本文中,此证明与文题不符,就不在这提及(笔者将在后续的文章中进行阐述)。对于解释二,其站在最大熵模型的角度上对概率进行阐述了,其推导证明,所谓
模型,其本质上就是特殊化的最大熵模型。因此,引出最大熵模型的话题,笔者将在接下来的部分,介绍最大熵模型,以及其如何证明
模型与概率的关系。

2 最大熵模型(

2.1 最大熵原理

  • 最大熵原理:对于概率模型,在所有可能分布的概率模型中,熵最大的模型是最好的模型。
    • 而在模型学习时,往往会存在许多的前提约束条件,因此最大熵模型可以阐述为,在满足约束条件的模型集合中选择熵最大的模型。
    • 而在满足已知条件前提下,如果没有更多的信息,则那些不确定部分都是“等可能的”。而等可能性通过熵最大化来刻画。
  • 最大熵原理在概率模型中的现实意义:直接提出最大熵原理可能会让读者有点懵圈,换个角度想想可能会更好,在现实生活中,假设有一个箱子,箱子中都有红、白、黑三种小球,前提条件明确告知,实验者放置了
    的红色小球,其他任何条件未知,在此前提下,绝大部分人会认为白、黑小球是均分的,也就是概率都是
    (这就是所谓的人之常情,大多数人还是希望生活能够公平一点的)。这也就是最大熵原理中为何认为那些不确定部分都是“等可能的”。而如何与熵联系到一起去了呢?这与熵的定义有关,熵首先是度量信息不确定的一种指标,而在均匀分布时,熵值会达到最大。为了使其优化,将这种等可能性与熵值等价,从而说明了最大熵与等可能性的一致性。
    • 最大熵原理选取熵最大的模型,而决策树(ID3)的划分目标选取熵最小的划分。原因在于:
    • 最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。因此这是一个求最大不确定性的过程,所以选择熵最大的模型。
    • 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。
  • 熵的定义

假设离散型随机变量

的概率分布为
,则熵为:

2.2 最大熵模型

  1. 最大熵模型的定义

首先明确最大熵模型学习的是一个概率模型,即

,考虑模型需要满足的条件,给定训练集,通过分别学习联合概率分布
、边缘分布
的经验分布,分别以
表示,其中:

其中,

表示训练集中样本
出现的频数,
为样本容量。

在最大熵模型中,约束条件用特征函数

度量,其描述输入
和输出
之间的某种事实,其定义如下:

上述特征函数为一个二值函数(理论上可以取任何值),当

满足该事实时取值为1,否则取值为0。这个期望其实就是约束
在训练集上的统计结果的均值(也就是约束
出现的期望的估计量)。
  • 如果
    取值为二值0,1,则表示约束
    在训练集上出现的次数的均值;
  • 如果
    取值为任意值,则表示约束
    在训练集上累计的结果的均值。

至此,获取到约束条件的表征,如何将特征函数(约束条件,后面不再强调)和所求模型结合在一起呢?这就需要想到如何将我们所求的经验分布和目标概率分布一一对应起来,因而有了如下操作:

  • 特征函数在经验分布
    的期望值

  • 特征函数关于所求模型
    在经验分布
    的期望值

根据大数定理,当数据量足够并且模型优秀到获取训练集中的大部分信息时,定义这两个期望值相等:

至此,我们解决了如何将所求模型与已知的经验分布相结合的问题,从上式看,每一步的推理有理有据(确实是这样),但是可能会有读者存在疑问,理论上,根据贝叶斯公式就有:

看起来,可以用

作为
的一个评估,但是这个估计只考虑某个点
上的估计,并未考虑任何约束。为了表达出这种约束,即体现训练集的整体特性,这里通过特征函数的两种期望相等来构建在数据集整体上的最优估计。对于某类问题,当其有
个约束时,则需要构建
个特征函数,并需要使其一一满足上式。

根据上述的讲解,最大熵模型的目标、约束条件都一一用数学公式进行了全面的定义,正式引出最大熵模型的定义:假设满足所有约束条件的模型集合为:

根据先验概率,定义在目标模型的条件熵模型如下:

则在模型集合

中条件熵
最大的模型称为最大熵模型,式中对数为自然对数。

2. 最大熵模型的学习

对于给定数据集合,和特征函数(一般真实情境下给定的是约束条件,特征函数需要自己去构建,这也是为什么最大熵模型虽然很有道理,但是应用不是很广泛的理由,因为对约束条件的把握不够,没有构造出合适的特征函数,效果并不会很好,在这里模型学习中,假定特征函数已经给出),则最大熵模型等价于如下约束最优问题:

将其改写为等价的求最小值问题:

求解上述约束最优化问题,所得解,就是最大熵模型学习的解,将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题。针对上述约束最小值问题,引入拉格朗日乘子

,定义拉格朗日函数
:

最优化的原始问题是:

最优化的对偶问题是:

由于拉格朗日函数

为凸函数,原始问题的解与对偶问题的解释等价的,因此,可通过求解对偶问题求解原始问题,首先,需要求解对偶问题内部的极小化问题
的函数,将其记为:

则其求解是找到使函数值最小的

,将其对
求偏导:

令偏导等于

,解得:

根据约束条件

,可得:

我们将

称之为归一化因子,则上式化简为:

至此,完成了对偶问题内部极小化问题的求解,通过求取的解,已经获知所需模型

的构成,之后,求解对偶问题外部的极大化问题:

将其解记为

,则完成了最大熵模型的求解,总体而言,最大熵模型的学习归纳为对偶函数
的求解。对于其参数的求解,利用极大似然函数,通过改进的迭代尺度法、拟牛顿法进行,在这里不一一赘述(公式太多,懒得写)。

3. 最大熵模型的些许思考

上文中,笔者曾提到过,最大熵模型从理论上讲那是很有道理的,但是实际中应用并没有很多(可能是我在瞎扯,至少我没怎么用过),这是为什么呢?从最后的求解模型

可以看出,此模型最后的解高度依赖于特征函数,即如何将约束条件转换为特征函数,这将完全取决于你的经验,这不得不提到强特征提取这个操作,原本此操作就很难,而又要将其转换一次(当然可以直接转化为二值函数,可能效果还不错哦),这就难上加难,据此,最大熵模型很少出现在读者们视野中也就实属正常了。

3 最大熵模型与逻辑回归

本部分,将解决在

模型中提到的问题,为什么
模型可以表示为概率?相信眼尖的读者在观察最大熵模型最后的解模型会有些许思考,其形式与
是等价的,而
本就是为解决多分类问题,
模型解决二分类问题只是一个特例而已,因而可以说,
模型本质上就是最大熵模型的一个特例,以下为证明过程:
  • 对于给定数据集,
    定义有n个约束,则如下构建特征函数:

  • 根据最大熵的求解模型由:
  • 故当
    时,有:

  • 故当
    时,有:

综上,获取到

模型的表示。事实证明,所谓
模型,其本质上就是最大熵模型,这也从侧面反映了最大熵模型中特征函数的构建其艰难,抛弃原始的
二值函数,而由特征值代替,就获得了
模型。

Reference

  1. 李航 《统计机器学习》
  2. 华校专 《AI算法工程师手册》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值