Machine Learning - 逻辑回归(Logistic Regression)

最新推荐文章于 2024-07-27 10:38:25 发布

Black Magician

最新推荐文章于 2024-07-27 10:38:25 发布

阅读量520

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sinat_29244519/article/details/101573212

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic 回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

Logistic Distrbution

Logistic Distribution 是一种连续型的概率分布，其分布函数和概率密度函数如下：
$\begin{aligned} D(x) &= P(X \leq x) = \frac{1}{1+e^{-\frac{x-\mu}{\gamma}}} \\ \\ p(x) &= D\prime(x) = \frac{e^{-\frac{x-\mu}{\gamma}}}{\gamma(1+e^{-\frac{x-\mu}{\gamma}})^2} \end{aligned}$
其中 $\mu$ 是位置参数， $\gamma > 0$ 是形状参数。

当 $\mu=0$ , $\gamma=1$ , D(x) 就变成了深度学习里常见的Sigmoid函数:
$=\phi(z)= \frac{1}{1+e^{-z}}$
在这里插入图片描述

Logistic Regression

模型

以二分类为例，决策边界可以表示为：
$w_1x_1+w_2x_2+b=0$
(下图是吴恩达Coursera课上的截图)

如果某个样本点满足 $h_\theta (x)=w_1x_1+w_2x_2+b > 0$ , 则判断它的类别为1，若 $h_\theta (x)=w_1x_1+w_2x_2+b < 0$ ,则判断它的类别是0。Logistic Regression在此基础上把输入变量 $x$ 转化为类别概率，然后通过比较概率来判断所属类别。如上图所示函数g( $\cdot$ )，我们需要找到这样一个函数来把线性回归表示的结果转化为概率，最理想的这种函数应当是阶跃函数：
$\begin{cases} 0, & z < 0 \\ 0.5, & z = 0 \\ 1, & z > 0 \end{cases} , z=w^Tx+b$
但是阶跃函数不可微，因此考虑使用对数几率函数，即Sigmoid函数：
$\frac{1}{1+e^{-(w^T x + b)}} \tag{1}$
从而有：
$ln\frac{g}{1-g}=w^Tx+b \tag{2}$
其中 $\frac{g}{1-g}$ 称为 几率(odds)， $ln\frac{g}{1-g}$ 称为 对数几率，也叫 logit。事实上， $g$ 表示标签 $y$ 为1 的概率：
$\tag{3}$
可以说，逻辑回归就是输出 $y = 1$ 的对数几率由输入变量 $x$ 的线性函数表示的模型。

损失函数

现在我们已经有了逻辑回归的模型，关键在于如何求解模型的参数，可以使用极大似然估计法来求解，即找到一组参数，使得在这组参数下，我们的数据的似然（概率）最大。
不妨设：
$\begin{aligned} P(y=1|x_i) &= p(x_i) \\ P(y=0|x_i) &= 1-p(x_i) \end{aligned}$
则某个样本出现出某个标签的概率为：
$p_i=p(x_i)^{y_i}(1-p(x_i))^{1-y_i}$
极大似然函数为：
$L(w)=\prod_{i=0}^{m}p_i=\prod_{i=0}^{m}p(x_i)^{y_i}(1-p(x_i))^{1-y_i}$
不妨两边取对数：
$\begin{aligned} lnL(w) &=\sum_{i=0}^{m}{[y_ilnp(x_i)+(1-y_i)ln(1-p(x_i))]} \\ &= \sum_{i=0}^{m}{[y_iln{\frac{p(x_i)}{1-p(x_i)}}+ln(1-p(x_i))]} \end{aligned}$
考虑 $(2)$ $(3)$ 两式， $ln{\frac{p(x_i)}{1-p(x_i)}}$ 就是对数几率，可以用线性模型表示，故而有：
$\begin{aligned} lnL(w) &= \sum_{i=0}^{m}{[y_i(wx_i+b)+ln(1-p(x_i))]} \\ &=\sum_{i=0}^{m}{[y_i(wx_i+b)+ln(1-\frac{1}{1+e^{-(wx_i+b)}})]} \\ &= \sum_{i=0}^{m}{[y_i(wx_i+b)+ln(\frac{e^{-(wx_i+b)}}{1+e^{-(wx_i+b)}})]} \\ &=\sum_{i=0}^{m}{[y_i(wx_i+b)+ln(\frac{1}{e^{(wx_i+b)}+1})]} \\ &=\sum_{i=0}^{m}{[y_i(wx_i+b)-ln(1+e^{(wx_i+b)})]} \end{aligned}$
取损失函数为：
$J(w)=-\frac{1}{m}lnL(w)=-\frac{1}{m}\sum_{i=0}^{m}{[y_ilnp(x_i)+(1-y_i)ln(1-p(x_i))]}$
我们可以发现求极大似然函数 L(w) 的最大值和求损失函数 J(w) 的最小值是等价的。

优化方法

一阶方法

梯度下降(Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)、小批量随机梯度下降降法(Mini-batch Stochastic Gradient Descent)。随机梯度下降不但速度上比原始梯度下降要快，局部最优化问题时可以一定程度上抑制局部最优解的发生。

二阶方法

牛顿法：详见牛顿法求函数零点和极值点
拟牛顿法：不用二阶偏导而是构造出Hessian矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思路就是用一个特别的表达形式来模拟Hessian矩阵或者是他的逆使得表达式满足拟牛顿条件。主要有DFP法（逼近Hession的逆）、BFGS（直接逼近Hession矩阵）、 L-BFGS（可以减少BFGS所需的存储空间）。