我们都是小怪兽,终有一天,都会被正义的奥特曼杀死。
逻辑回归与最大熵模型
1 逻辑回归
1.1 Logistic Regression的模型定义
上述中
1.2 Logistic Regression解决何种问题
我们需要知道的是,LR模型解决的是分类问题,但是其命名为回归,这与几率这一概念的定义不无关系。几率(odds)是指该事件发生的概率与该事件不发生的概率的比值,如果一个事件发生的概率为
而对于
上式意义在于,
1.3 Logistic Regression模型参数估计
则,其似然函数为:
为解决连乘最后数值过小的问题,将连乘转化为连加,即取其对数,则对数似然函数如下:
在此基础上,对
至此,问题就变成以对数似然函数为目标函数的最优化问题,
1.4 Logistic Regression模型的一点思考
2 最大熵模型(
2.1 最大熵原理
- 最大熵原理:对于概率模型,在所有可能分布的概率模型中,熵最大的模型是最好的模型。
- 而在模型学习时,往往会存在许多的前提约束条件,因此最大熵模型可以阐述为,在满足约束条件的模型集合中选择熵最大的模型。
- 而在满足已知条件前提下,如果没有更多的信息,则那些不确定部分都是“等可能的”。而等可能性通过熵最大化来刻画。
- 最大熵原理在概率模型中的现实意义:直接提出最大熵原理可能会让读者有点懵圈,换个角度想想可能会更好,在现实生活中,假设有一个箱子,箱子中都有红、白、黑三种小球,前提条件明确告知,实验者放置了
的红色小球,其他任何条件未知,在此前提下,绝大部分人会认为白、黑小球是均分的,也就是概率都是(这就是所谓的人之常情,大多数人还是希望生活能够公平一点的)。这也就是最大熵原理中为何认为那些不确定部分都是“等可能的”。而如何与熵联系到一起去了呢?这与熵的定义有关,熵首先是度量信息不确定的一种指标,而在均匀分布时,熵值会达到最大。为了使其优化,将这种等可能性与熵值等价,从而说明了最大熵与等可能性的一致性。
- 最大熵原理选取熵最大的模型,而决策树(ID3)的划分目标选取熵最小的划分。原因在于:
- 最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。因此这是一个求最大不确定性的过程,所以选择熵最大的模型。
- 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。
- 熵的定义
假设离散型随机变量
2.2 最大熵模型
- 最大熵模型的定义
首先明确最大熵模型学习的是一个概率模型,即
其中,
在最大熵模型中,约束条件用特征函数
上述特征函数为一个二值函数(理论上可以取任何值),当
- 如果
取值为二值0,1,则表示约束在训练集上出现的次数的均值;
- 如果
取值为任意值,则表示约束在训练集上累计的结果的均值。
至此,获取到约束条件的表征,如何将特征函数(约束条件,后面不再强调)和所求模型结合在一起呢?这就需要想到如何将我们所求的经验分布和目标概率分布一一对应起来,因而有了如下操作:
- 特征函数在经验分布
的期望值:
- 特征函数关于所求模型
在经验分布的期望值:
根据大数定理,当数据量足够并且模型优秀到获取训练集中的大部分信息时,定义这两个期望值相等:
至此,我们解决了如何将所求模型与已知的经验分布相结合的问题,从上式看,每一步的推理有理有据(确实是这样),但是可能会有读者存在疑问,理论上,根据贝叶斯公式就有:
看起来,可以用
根据上述的讲解,最大熵模型的目标、约束条件都一一用数学公式进行了全面的定义,正式引出最大熵模型的定义:假设满足所有约束条件的模型集合为:
根据先验概率,定义在目标模型的条件熵模型如下:
则在模型集合
2. 最大熵模型的学习
对于给定数据集合,和特征函数(一般真实情境下给定的是约束条件,特征函数需要自己去构建,这也是为什么最大熵模型虽然很有道理,但是应用不是很广泛的理由,因为对约束条件的把握不够,没有构造出合适的特征函数,效果并不会很好,在这里模型学习中,假定特征函数已经给出),则最大熵模型等价于如下约束最优问题:
将其改写为等价的求最小值问题:
求解上述约束最优化问题,所得解,就是最大熵模型学习的解,将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题。针对上述约束最小值问题,引入拉格朗日乘子
最优化的原始问题是:
最优化的对偶问题是:
由于拉格朗日函数
则其求解是找到使函数值最小的
令偏导等于
根据约束条件
我们将
至此,完成了对偶问题内部极小化问题的求解,通过求取的解,已经获知所需模型
将其解记为
3. 最大熵模型的些许思考
上文中,笔者曾提到过,最大熵模型从理论上讲那是很有道理的,但是实际中应用并没有很多(可能是我在瞎扯,至少我没怎么用过),这是为什么呢?从最后的求解模型
3 最大熵模型与逻辑回归
本部分,将解决在
- 对于给定数据集,
定义有n个约束,则如下构建特征函数:
- 根据最大熵的求解模型由:
- 故当
时,有:
- 故当
时,有:
综上,获取到
Reference
- 李航 《统计机器学习》
- 华校专 《AI算法工程师手册》