从逻辑回归推广到广义线性模型

最新推荐文章于 2023-07-04 18:01:51 发布

置顶 Donnie-Chen

最新推荐文章于 2023-07-04 18:01:51 发布

阅读量2.3k

点赞数 1

分类专栏：逻辑回归广义线性模型 softmax回归机器学习文章标签：机器学习算法逻辑回归-广义线性模

本文链接：https://blog.csdn.net/DonieChen/article/details/49179881

版权

逻辑回归同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

广义线性模型

1 篇文章 0 订阅

订阅专栏

softmax回归

1 篇文章 0 订阅

订阅专栏

1.引言

前几天突然想复习一下逻辑回归算法，于是在网上搜了一些大神写的博客，收获很多，也让我想起之前看过Andrew Ng的机器学习课程笔记，上面好像说过线性回归、逻辑回归、softmax回归可以统一为一种模型，所以决定直接把之前的课程笔记（英文原版的，网上貌似有翻译过的，但是感觉还是看原版更好）再好好研究一下，真正把回归问题搞清楚。另外，这是我第一次写博客，希望以后能够越写越好，有写的不对或者不好的地方，还希望大家能够指点一下。

2.回忆逻辑回归模型

查了一下回归问题的定义，百度百科给出的定义如下：研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。对于一般的回归问题来说，常见的步骤如下：
1. 寻找预测函数(hypothesis) $h_{\theta}{(x)}$
2. 构造损失函数(cost/loss function) $J(\theta)$ （最小化损失函数的过程对应于预测函数参数的过程）
3. 使用优化算法（牛顿法、梯度下降法等）来最小化损失函数，即优化预测函数的参数）
特别地，对于逻辑回归模型（Logistic Regression Model ）,一般用来处理两分类问题，下面分别针对上面的三个步骤进行解释：

2.1 寻找预测函数

在逻辑回归模型中，预测函数 $h_{\theta}{(x)}$ 使用了sigmoid函数（logistic函数），具体的函数形式如下：

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+e^{-z}}$
sigmoid函数的图像如下，取值范围为(0,1):

下面左图是一个线性的决策边界，右图是非线性的决策边界:
这里写图片描述

对于线性决策边界的情况，边界函数为：

θ 0 * 1 + θ 1 * x 1 + θ 2 * x 2 + . . . + θ n * x n = θ ⃗ T x ⃗

$\theta_0*1+\theta_1*x_1+\theta_2*x_2+...+\theta_n*x_n = \vec{\theta}^T\vec{x}$
其中

x⃗ =(1,x1,x2,...,xn)T,θ⃗ =(θ0,θ1,...,θn)T $\vec{x} = (1,x_1,x_2,...,x_n)^T, \vec{\theta} = (\theta_0,\theta_1,...,\theta_n)^T$ ,注意在这里为了表示方便，在

x⃗ $\vec{x}$ 中加了常数1项。
根据线性边界函数构造预测函数如下：

h θ ⃗ (x ⃗) = 1 / 1 + e x p (- θ ⃗ T x ⃗)

$h_{\vec{\theta}}{(\vec{x})} = 1/{1+exp{(-\vec{\theta}^{T}\vec{x})}}$

在这里，预测函数表示目标变量 $y$ 被分类为正样本的概率：

p (y = 1 | x ⃗; θ ⃗) = h θ ⃗ (x ⃗)

$p(y=1|\vec{x};\vec{\theta}) = h_{\vec{\theta}}{(\vec{x})}$

p (y = 0 | x ⃗; θ ⃗) = 1 - h θ ⃗ (x ⃗)

$p(y=0|\vec{x};\vec{\theta}) = 1 - h_{\vec{\theta}}{(\vec{x})}$
至于为什么会选择sigmoid函数，在下面讲GLM的时候会给出具体的推导，具有一定的统计意义。

2.2 构造损失函数

对于逻辑回归，损失函数如下：

J (θ ⃗) = - 1 m \sum i m y i l o g h θ ⃗ (x i \to) + (1 - y i) l o g (1 - h θ ⃗ (x i \to) ）

$J(\vec{\theta}) = -\frac{1}{m}\sum_{i}^{m}{y_i log{h_\vec{\theta}(\vec{x_i})}+(1-y_i)log(1-h_{\vec{\theta}}{(\vec{x_i})}）}$

分析 $J(\vec{\theta})$ 的表达式，可以看出，当 $y_i$ 为1时， $h_\vec{\theta}{(\vec{x})}$ 越大，即 $y_i$ 被预测为1的概率越大，此时损失函数 $J(\vec{\theta})$ 越小；相反当 $y_i$ 为0时， $h_\vec{\theta}{(\vec{x})}$ 越小，即 $y_i$ 被预测为0的概率越大，此时损失函数 $J(\vec{\theta})$ 越小。
当给定一系列训练样本 $(x_i,y_i) i\in{\{1,2...m\}}$ 时，优化预测函数 $h_{\vec{\theta}}{(x)}$ 的过程也就是找到合适的 $\vec{\theta}$ 使得损失函数 $J(\vec{\theta})$ 达到最小值的过程。

至于损失函数 $J(\vec{\theta})$ 具体为什么是上面的形式，同样也会在讲GLM时给出推导过程

2.3 使用优化算法最小化损失函数

在这里，我们只会介绍使用梯度下降法来最小化损失函数，当然还有很多其他的方法可以使用（如牛顿法）：
在梯度下降法中，每次迭代过程中，参数 $\vec{\theta}$ 的更新策略如下：

θ i \to : = θ i - 1 \to - α \partial J ( θ ⃗ ) \partial θ ⃗ | θ ⃗ = θ i - 1 \to

$\vec{\theta_i} := \vec{\theta_{i-1}} - \alpha \frac{\partial{J(\vec{\theta})} }{\partial{\vec{\theta}}}|_{\vec{\theta} = \vec{\theta_{i-1}}}$
其中 $\alpha$ 为学习率
下面针对逻辑回归算法给出的推导如下：
这里写图片描述

因此

θ $\theta$ 的更新公式如下：

θ i \to : = θ i - 1 \to + α 1 m \sum 1 m (y i - h θ ⃗ (x i \to)) x i \to

$\vec{\theta_{i}}:=\vec{\theta_{i-1}} + \alpha\frac{1}{m}\sum_{1}^{m}{(y_i - h_\vec{\theta}(\vec{x_i}))\vec{x_i}}$

每次跌代都需要遍历所有样本 $(x_i,y_i)$ ,因此这种方法也叫 Batch Gradient Descent(批量梯度下降)。还有一种叫Stochastic Gradient Descent(随机梯度下降)，每次迭代只使用一个样本，计算成本更小，一般来说，随机梯度下降法比批量梯度下降法收敛更快，当样本数据集比较大时，经常会选择随机梯度下降法。但是随机梯度下降法可能会造成参数 $\vec{\theta}$ 在最优解周围出现震荡（与样本不能完全线性可分有关），当然也有相应的方法来解决这个问题（迭代过程中动态改变学习率 $\alpha$ ，如需详细了解，可以自己去查一下，在《机器学习实践》这本书也有讲到）。

3. 广义线性模型（GLM）的引入

广义线性模型是基于指数分布族的，而指数分布族的原型如下

p (y; η) = b (y) e x p (η T T (y) - a (η))

$p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta))$
其中

η $\eta$ 为 自然参数（natural/canonical parameter），

T(y) $T(y)$ 为 充分统计量，也可以是一个向量（softmax regression中就是），通常来说

T(y)=y $T(y) = y$ ,

exp(−a(η)) $exp{(-a(\eta))}$ 为归一化项，保证

p(y;η) $p(y;\eta)$ 累加和为1.
不同的

T,a,b $T,a,b$ 定义了一个以

η $\eta$ 为参数的分布簇(family)，不同的

η $\eta$ 对应了这个簇中不同的分布。值得注意的是，可以证明伯努利分布（跟logistic regression、softmax regression有关）、高斯分布(跟linear regression有关)、泊松分布（当然是跟poission regression有关）都是指数分布簇，后面将给出一些证明.

那么如何根据指数分布簇构造广义线性模型呢？广义线性模型基于下面三个假设：
1. 给定特征属性 $x$ 和参数 $\theta$ 后， $y$ 的条件概率 $p(y|x;\theta)$ 服从指数分布族，即 $y|x;\theta \sim ExpFamily(\eta)$
2. 给定特征属性 $x$ ，我们的目标是预测 $T(y)$ 的期望值，即 $E[T(y)|x]$ (通常情况下， $T(y)=y$ ,因此 $h_\theta(x)=E[y|x]$ , 如在逻辑回归模型中， $h_\theta(x) = 0*p(y=0|x)+1*p(y=1|x)=E[y|x]$ )
3. $\eta$ 与 $x$ 之间的关系是线性的，即 $\eta=\vec{\theta}^T\vec{x}$

下面将证明线性回归、逻辑回归、softmax回归（逻辑回归是其两分类其情况）其实都属于广义线性模型的范畴：

3.1 线性回归

关于高斯分布的知识在这就不多说了，如果把它看着指数分布簇，那么：

p (y) = 1 2 π - - \sqrt σ e x p (- ( y - u ) 2 2 σ 2) = (1 2 π - - \sqrt σ e x p (- y 2 2 σ 2)) * e x p (u σ 2 y - u 2 2 σ 2) b (y) = 1 2 π - - \sqrt σ e x p (- y 2 2 σ 2), η = u σ 2, a (η) = - u 2 2 σ 2

$p(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-u)^2}{2\sigma^2})\qquad\qquad\qquad\qquad\qquad\\=(\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{y^2}{2\sigma^2}))*exp(\frac{u}{\sigma^2}y-\frac{u^2}{2\sigma^2})\\ b(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{y^2}{2\sigma^2}),\eta=\frac{u}{\sigma^2},a(\eta)=-\frac{u^2}{2\sigma^2}$
为了方便证明，在这里我们假设

σ2=1 $\quad\sigma^2=1$
按照GLM的假设2，

hθ(x)=E[y|x]=u=η $h_\theta(x) = E[y|x] = u = \eta$ ，按照假设3，

η=θ⃗ Tx⃗ $\eta = \vec{\theta}^T\vec{x}$ ,因此

hθ(x)=θ⃗ Tx⃗ $h_\theta{(x)} = \vec{\theta}^T\vec{x}$ 。此时：

p (y | x; θ ⃗) = 1 2 π - - \sqrt e x p (- ( y - θ ⃗ T x ⃗ ) 2 2)

$p(y|x;\vec{\theta}) = \frac{1}{\sqrt{2\pi}}exp(-\frac{(y-\vec{\theta}^T\vec{x})^2}{2})$

假设所有的样本相互之间是独立的，则有
$p(y|\vec{X};\vec{\theta})=\prod_{i=1}^{m}p(y_i|x_i;\vec{\theta})=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}}exp(-\frac{(y_i-\vec{\theta}^T\vec{x_i})^2}{2})$
给定样本集，令 $L(\theta) =L(\theta;\vec{X},y) = p(y|\vec{X};\vec{\theta})$ , $L(\theta)$ 即为似然函数，按照最大似然准则，即需要找到 $\vec{\theta}$ 使得 $L(\theta)$ 达到最大，但是我们不直接最大化 $L(\theta)$ ,为了方便计算，我们对 $L(\theta)$ 取对数（对数似然函数 $l(\theta)$ (log likelihood)）:

l (θ) = l o g (L (θ)) = c o n s t - 1 2 \sum i = 1 m (y i - θ ⃗ T x i \to) 2

$l(\theta) = log(L(\theta))= const - \frac{1}{2}\sum_{i=1}^{m}(y_i-\vec{\theta}^T\vec{x_i})^2$
最大化

L(θ) $L(\theta)$ 等价于最小化

J(θ) $J(\theta)$ ：

J (θ) = 1 2 \sum i = 1 m (y i - θ ⃗ T x i \to) 2

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y_i-\vec{\theta}^T\vec{x_i})^2$
这也就是我们在线性回归里面使用LMS准则的损失函数。

如上所示，线性回归实际上就是指数函数簇为高斯分布时的广义线性模型。

3.2 逻辑回归

与线性回归一样，逻辑回归实际上是对应于指数函数簇为伯努利分布(Bernoulli Distribution)时的广义线性模型。下面给出证明：
对于二元的伯努利分布Bernoulli( $\phi$ )， $p(y=1) = \phi,p(y=0)=1-\phi$ ,可以综合表示为以下形式：

p (y) = ϕ y (1 - ϕ) 1 - y

$p(y) = \phi^{y}(1-\phi)^{1-y}$
现在将伯努利分布表示为指数簇函数形式：

p (y) = e x p (l o g (p (y)) = e x p (y l o g (ϕ) + (1 - y) l o g (1 - ϕ)) = e x p (l o g (ϕ 1 - ϕ) y + l o g (1 - ϕ)) b (y) = 1, η = l o g (ϕ 1 - ϕ), a (η) = l o g (1 - ϕ)

$p(y) = exp(log(p(y))=exp(ylog(\phi)+(1-y)log(1-\phi))\\=exp(log(\frac{\phi}{1-\phi})y+log(1-\phi))\\ b(y) = 1 ,\eta=log(\frac{\phi}{1-\phi}),a(\eta)= log(1-\phi)$

根据GLM的假设2， $h_\theta(x)=E[y|x;\theta]=\phi = \frac{1}{1+e^{-\eta}}$ ,按照假设3， $\eta = \vec{\theta}^T\vec{x}$ ,因此 $h_\theta{(x)} =\frac{1}{1+e^{-\vec{\theta}^T\vec{x}}}$ ,其中 $\phi = \frac{1}{1+e^{-\eta}}$ 就是我们说的sigmoid函数，这也是为什么逻辑回归的预测函数选了sigmoid函数。
与线性回归一下，假设样本之间相互独立，则似然函数 $L(\vec{\theta})$ 为：

L (θ ⃗) = \prod i = 1 m p (y i | x i; θ ⃗) = \prod i = 1 m h θ (x i) y i (1 - h θ (x i)) 1 - y i

$L(\vec{\theta}) = \prod_{i=1}^{m}p(y_i|x_i;\vec{\theta})=\prod_{i=1}^{m}h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}$
同样对似然函数取对数：

l (θ) = l o g (L (θ)) = \sum i = 1 m y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i))

$l(\theta)=log(L(\theta))=\sum_{i=1}^{m}{y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))}$
最大化

L(θ) $L(\theta)$ 也就相当与最小化

J (θ ⃗) = - 1 m \sum i m y i l o g h θ ⃗ (x i \to) + (1 - y i) l o g (1 - h θ ⃗ (x i \to))

$J(\vec{\theta}) = -\frac{1}{m}\sum_{i}^{m}{y_i log{h_\vec{\theta}(\vec{x_i})}+(1-y_i)log(1-h_{\vec{\theta}}{(\vec{x_i})})}$
这也就从统计意义上解释了逻辑回归中损失函数的由来。

3.3 softmax回归

现在让我们来考虑一下k分类问题，即与逻辑回归不同，逻辑回归中y取值只能为0或1，对于k分类问题，y的取值为 $\{1,2,...,k\}$ , 假设y取值为 $\{1,2,...,k\}$ 的概率分别为 $\{\phi_1,\phi_2,...,\phi_k\}$ ,即 $p(y=i)=\phi_i$ 当然这k个参数必须要满足归一化条件 $\sum_{i=1}^{m}{\phi_i} =1$ (自由度为k-1),与伯努利分布一样，我们可以将y的分布写成一下格式：

y = ϕ 1 {y = 1} 1 ϕ 1 {y = 2} 2 . . . ϕ {y = k} k

$y=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{\{y=k\}}$

$\quad$ 其中

1{∗} $1\{*\}$ 为示性函数，1{True} = 1,1{False}=0
我们定义

T(y)∈Rk−1 $T(y)\in{R^{k-1}}$ 如下：
这里写图片描述

其中

(T(y))i=1{y=i} $(T(y))_i = 1\{y=i\}$ ,利用T(y)重新表示y的分布：

y = ϕ T (y) 1 1 ϕ T (y) 2 2 . . . ϕ 1 - \sum m i = 1 T (y) i k = e x p (T (y) 1 l o g (ϕ 1) + T (y) 2 l o g (ϕ 2) + . . . + T (k - 1) l o g (ϕ k - 1) + (1 - \sum i = 1 m T (y) i) l o g (ϕ k)) = e x p (l o g (ϕ k) + \sum i = 1 k - 1 T (y) i l o g (ϕ i ϕ k)) = e x p (l o g (ϕ k) + η T T (y))

$y=\phi_1^{T(y)_1}\phi_2^{T(y)_2}...\phi_k^{1-\sum_{i=1}^{m}{T(y)_i}}\\=exp(T(y)_1log(\phi_1)+T(y)_2log(\phi_2)+...+T(k-1)log(\phi_{k-1})+(1-\sum_{i=1}^{m}{T(y)_i})log(\phi_k))\\=exp(log(\phi_k)+\sum_{i=1}^{k-1}{T(y)_i}log(\frac{\phi_i}{\phi_k}))\\=exp(log(\phi_k)+\eta^TT(y))\\$

$\quad$ 其中

η=(η1,η2,...,ηk−1)=(logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk)T,b(y)=1,a(η)=log(ϕk) $\eta =(\eta_1,\eta_2,...,\eta_{k-1})= (log{\frac{\phi_1}{\phi_k}},log{\frac{\phi_2}{\phi_k}},...,log{\frac{\phi_{k-1}}{\phi_k}})^T,b(y)=1,a(\eta)=log(\phi_k)$
由假设2可知，

hθ(x)=E[T(y)|x]=(ϕ1,ϕ2,...,ϕk−1)T $h_\theta(x) = E[T(y)|x]=(\phi_1,\phi_2,...,\phi_{k-1})^T$ ,由假设3可知：

l o g (ϕ i ϕ k) = η i = θ i \to T x ⃗ ϕ i = e x p (θ i \to T x ⃗) ϕ k

$log(\frac{\phi_i}{\phi_k})=\eta_i=\vec{\theta_i}^T\vec{x}\\ \phi_i=exp(\vec{\theta_i}^T\vec{x})\phi_k$
再由归一化条件可知，

∑ki=1ϕi=1 $\sum_{i=1}^{k}{\phi_i}=1$ ,则可计算得到：

p (y = i | x) = ϕ i = e θ i \to T x ⃗ 1 + \sum k - 1 j = 1 e θ j \to T x ⃗

$p(y=i|x)=\phi_i=\frac{e^{\vec{\theta_i}^T\vec{x}}}{1+\sum_{j=1}^{k-1}{e^{\vec{\theta_j}^T\vec{x}}}}$

为了表示方便，我们可以定义 $\eta_k=log(\frac{\phi_k}{\phi_k})=0$ ，即 $\vec{\theta_k}=\vec{0}$ ,则上式可以重新表示为：

p (y = i | x) = ϕ i = e θ i \to T x ⃗ \sum k j = 1 e θ j \to T x ⃗

$p(y=i|x)=\phi_i=\frac{e^{\vec{\theta_i}^T\vec{x}}}{\sum_{j=1}^{k}{e^{\vec{\theta_j}^T\vec{x}}}}$
这也就是我们所熟知的softmax回归模型，预测的目标函数为：
这里写图片描述

当k=2时，softmax回归便退化为前面的逻辑回归模型。

至此，我们已经完成了对线性回归模型、逻辑回归模型、softmax模型的推导，其实把分布簇函数换成泊松分布，你就可以推导出泊松回归了。

结束语

公式实在太多，搞了差不多一天，终于完成了自己的第一篇博客，希望能够对希望了解回归的同学有点帮助，时间匆忙，文中可能会有些错误，还希望大家能够多多包涵，多多指点，欢迎交流。《机器学习实践》这本书中有具体的实现代码，大家有时间最好还是动手实践一下，能够加深理解！

http://blog.csdn.net/dongtingzhizi/article/details/15962797
http://blog.csdn.net/lilyth_lilyth/article/details/10032993
http://blog.csdn.net/acdreamers/article/details/44663091
Andew Ng 机器学习lecture notes
《机器学习实践》