逻辑斯谛回归与最大熵模型
逻辑斯谛回归与最大熵模型都属于对数线性模型
6.1 逻辑斯谛回归模型
6.1.1 逻辑斯谛回归分布
-
逻辑斯谛分布:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
式中,μ为位置参数,γ>0为形状参数。 -
分布函数属于逻辑斯谛函数,其图形是一条S形曲线。该曲线以(μ,1/2)为中心对称。
6.1.2 二项逻辑斯谛回归模型
-
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。
-
二项逻辑斯谛回归模型是如下的条件概率分布:
逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。 -
一个时间的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds)或logit函数是
对逻辑斯谛回归而言,
这就是说,在逻辑斯谛回归模型中,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。线性函数值越接近无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。
6.1.3 模型参数估计
- 逻辑斯谛回归模型学习时,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。
- 对数似然函数为:
对L(w)求极大值,得到w的估计值。 - 逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
6.1.4 多项逻辑斯谛回归
-
上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型:
-
二项逻辑斯谛回归的参数估计也可推广到多项逻辑斯谛回归。
6.2 最大熵模型
6.2.1 最大熵原理
-
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)时,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理可以表述为在满足约束条件的模型集合中取熵最大的模型。
-
假设离散随机变量X的概率分布是P(X),其熵是:
熵满足下列不等式:
|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。 -
直观的,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。
6.2.2 最大熵模型的定义
定义:
假设满足所有的约束条件的模型集合为:
定义在条件概率分布P(Y|X)上的条件熵为:
则模型集合C中的条件熵H§最大的模型称为最大熵模型。式中的对数为自然对数。
6.2.3 最大熵模型的学习
这就是说,可以应用最优化算法求对偶函数的极大化,得到w*,用来表示P*。这里P*=Pw*=Pw*(y|x)是学习到的最优模型(最大熵模型)。也就是说,最大熵模型的学习归结为对偶函数的极大化。
6.2.4 极大似然估计
证明:对偶函数的极大化等价于最大熵模型的极大似然估计。
最大熵模型与逻辑斯谛回归模型有类似的形式,衙门又称为对数线性模型(log linear model)。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
6.3 模型学习的最优化算法
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。从最优化的观点看,这时的目标函数具有很好的性质。他是光滑的凸函数,因此多种最优化的方法都适用,保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。
6.3.1 改进的迭代尺度法(improved iterative scalling,IIS)
-
已知最大熵模型为:
对数似然函数为:
目标为通过极大似然估计学习模型参数,即求对数似然函数的极大值。 -
IIS的想法为:假设
希望找到一个新的参数向量
,使得模型的对数似然函数值增大,如果有参数向量更新方法,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。 -
算法:
6.3.2 拟牛顿法
-
对于最大熵模型而言:
目标函数:
梯度:
-
最大熵模型学习的BFGS算法: