目录
逻辑斯谛回归(logistic regression)是统计学习方法中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。
一、逻辑斯谛回归模型
1.逻辑斯谛分布
2.二项逻辑斯谛回归模型
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。
3.模型参数估计
逻辑斯谛回归模型学习时,对于给定的训练数据集T,其中x可以应用极大似然估计法估计模型参数从而得到逻辑斯谛回归模型。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及牛顿法。
4.多项逻辑斯谛回归
上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型(multi-normal logistic regression model),用于多类分类。
二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归。
二、最大熵模型
最大熵模型(maximum entropy model)由最大熵原理推导实现。
1.最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型时最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型的集合中选取熵最大的模型。
2.最大熵模型的定义
最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模型。
3.最大熵模型的学习
最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。
4.极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计。最大熵魔性的学习问题就转化为具体求解对数似然函数极大化或对偶函数极大化的问题。
最大熵模型与逻辑斯谛回归模型由类似的形式,它们又称为数线性模型(log liner model)。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
三、模型学习的最优化算法
逻辑斯谛回归模型、最大熵模型学习归结为似然函数为目标函数的最优化问题,通过迭代算法求解。从最优化的观点,这是的目标函数具有很好的性质。它是光滑的凸函数,因此多种最优化的方法都适用,保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿或拟牛顿法一般收敛速度更快。
下面介绍基于改进的迭代尺度法与拟牛顿法的最大熵模型学习算法。
1.改进的迭代尺度法
改进的迭代尺度法(improved iterative scaling,IIS)是一种最大熵模型学习的最优化算法。
ISS的想法是:假设最大熵模型当前的参数向量是w,我们希望找到一个新的参数向量,使得模型对数似然估计函数值增大。如果能有这样一种参数向量更新的方法,那么可以重复使用这一方法,直至找到对似然函数的最大值。
2.拟牛顿法
最大熵模型学习还可以应用牛顿法或拟牛顿法。
总结
- 逻辑斯谛回归模型是由以下条件概率分布表示的分类模型,逻辑斯谛回归模型可以用于二类或多类分类。这里x为输入特征值、w为特征的权重
逻辑斯谛回归模型源自逻辑斯谛分布,其分布函数F(X)是S形函数。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。
- 熵模型是由以下条件概率分布表示的分类模型,最大熵模型也可以用于二类或多类分类。
其中,Z是规范化因子,f为特征函数,w为特征的权值。
- 最大熵模型可以由最大熵原理推导得出。最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。
最大熵原理应用到分类模型的学习中,有以下约束最优化问题:
求解此最优化问题的对偶问题得到最大熵模型。
- 逻辑斯谛回归模型及最大熵模型都属于对数线性模型。
- 逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计。逻辑斯谛回归模型及最大模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。