关于二项逻辑斯谛回归的探讨,本文主要参考 MLaPP 第9章
1. 指数家族
在介绍逻辑斯谛回归模型之前,我们要先介绍一下指数家族。为什么要介绍指数家族呢? 在 MLaPP 9.2.6 中证明了,指数家族是最少约束条件下的最大熵模型。这个最少约束条件是只需要知道特征函数的期望值。然后使用熵的定义和拉格朗日方法来定义并求解这种带约束的优化问题。(证明思路:优化问题是概率分布的熵最大化,约束条件是概率为非负实数且概率之和为1. 然后用拉格朗日方法写出表达式,让表达式对概率分布求导并令导数为0,得到约束条件下熵最大的概率分布。)
最少约束条件下的最大熵模型,意味着指数家族是普适的最好模型。因此在逻辑斯谛回归问题中:
我们先根据问题的类型(二分类 / 多分类)写出概率分布模型(Bernoulli / Multinoulli Distribution)。
然后通过变量替换的方法,把概率分布模型变换成指数家族的形式。
最后我们就得到了在《统计学习方法》或《机器学习》中看到的逻辑斯谛回归模型,以及附加在上面的各种解释。但从本质上来说,逻辑斯谛回归模型是指数家族模型,是普适的最好模型。
指数家族(exponential family)的概率分布函数 p(x|θ) 具有如下形式:
2. 二项逻辑斯谛回归
对于一个二分类问题,我们首先假设其输出
y
服从均值参数(mean parameter)为
令 Z(θ)=1/(1−μ) 、 θ=log(μ1−μ) 、 ϕ(x)=x ,从而得到指数家族的形式。在《统计机器学习》和《机器学习》中,将 log(μ1−μ) 定义成对数几率,并假设输出 y=1 的对数几率是输入 x 的线性函数,从而得到二项逻辑斯谛回归模型。 为什么要选择对数几率 / sigm 函数,其来源应该是这样吧!
令 θ=wTx ,得到二项逻辑斯谛回归模型(广义线性模型)如下:
MLaPP 9.2.2.2 使用同样的套路介绍了多项逻辑斯谛回归,这里不再赘述(其实是多项逻辑斯谛回归的公式写起来有点复杂)。这里还证明了,多项逻辑斯谛回归模型(multinomial logistic regression)和 softmax regression 是等价的。