线性回归及logistic回归详解

农夫三犭

已于 2022-02-13 12:27:42 修改

阅读量4.3k

点赞数

分类专栏：强化学习文章标签：线性回归机器学习 logistic regression

于 2022-02-06 18:01:40 首次发布

本文链接：https://blog.csdn.net/qq_43280087/article/details/122798419

版权

线性回归逻辑回归梯度下降代价函数参数优化

关键词由CSDN通过智能技术生成

强化学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

机器学习

线性回归
logistic回归

（主要参考吴恩达机器学习）

线性回归

线性回归是机器学习中比较基本的一个算法。其基本思想大致可以理解为给定一个数据集，通过线性回归得到一条曲线，尽可能地去拟合这个数据集。如下图所示：
红色点集表示数据集，蓝色直线为拟合结果那么，如何得到这样一条拟合曲线呢？一个自然而然的想法是建立一个输入 $x$ 到输出 $\hat{y}$ 的拟合函数，使得这个函数的输出 $\hat{y}$ 能够尽可能地接近真实值 $y$ 。
通常，这个拟合函数可以被定义为：
$h_{\theta}\left(x\right)=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n=\boldsymbol{\theta}^T\boldsymbol{x}$
其中， $\boldsymbol{\theta}=\left[\theta_0,\theta_1,\dots,\theta_n\right]^T$ ，表示参数的集合（线性回归的目的就是找到一组合适的参数，去拟合给定的数据集）， $\boldsymbol{x}=\left[x_0,x_1,\dots,x_n\right]^T$ 表示数据的特征，并且通常 $x_0=1$ 。例如，预测房价随房子面积变化的趋势，房子的面积，楼层，房间数等都可作为数据的特征，分别用 $x_1，x_2，x_3，\dots$ 表示。
因此，我们的任务就是去寻找这一组合适的 $\boldsymbol{\theta}$ 去构建上述拟合函数。这样我们就可以引入机器学习中另外一个常见的名词：代价函数。其主要作用就是衡量拟合函数的输出 $\hat{y}$ 和真实值 $y$ 之间的偏差（值越小，说明越接近真实值）。在线性回归中，代价函数的定义为：
$J\left(\boldsymbol{\theta}\right)=\frac{1}{2m}\sum_{i=1}^m\left(h_\boldsymbol{\theta}\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2$
其中， $m$ 表示训练集的数量， $x^{\left(i\right)}$ 的上标仅仅表示第 $i$ 个训练数据。为了找到 $\boldsymbol{\theta}$ ，目标就转换为了 $\mathop{min}\limits_{\theta}J\left(\theta\right)$ 。
下一步就是如何求 $\mathop{min}\limits_{\theta}J\left(\boldsymbol{\theta}\right)$ 。我们最熟悉的做法就是梯度下降了，具体做法为:
$repeat\ until\ convergence\ \theta_j\coloneqq\theta_j-\alpha\frac{\partial}{\partial\theta_j}J\left(\boldsymbol{\theta}\right)$
针对每一个具体的 $\theta_j$ ，其具体的更新公式为：
$\theta_0\coloneqq\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_0^{\left(i\right)}\\ \theta_1\coloneqq\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_1^{\left(i\right)}\\ \theta_2\coloneqq\theta_2-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_2^{\left(i\right)}\\\dots\\ \theta_n\coloneqq\theta_n-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_n^{\left(i\right)}$
重复上述过程，直到算法收敛。最终，我们就得到了一组合适的参数 $\boldsymbol{\theta^*}=\left[\theta_0^*,\theta_1^*,\dots,\theta_n^*\right]^T$ 。
以上就是线性回归的全部流程，下面介绍logistic回归（也叫逻辑回归）。

logistic回归

在上面的线性回归中要预测的变量 $\hat{y}$ 是一个连续值，而logistic回归主要用于分类问题，要预测的变量 $\hat{y}$ 是一个离散值。通常其取值是一个有限离散值的集合，即 $y\in\{0,1,2,\dots\}$ ，最常见的二元分类中 $y\in\{0,1\}$ 。logistic的原理和线性回归大致相同。具体区别主要在于拟合函数 $h_{\boldsymbol\theta}\left(x\right)$ 和代价函数 $J\left(\boldsymbol\theta\right)$ 。在线性回归中，我们已经知道 $h_{\boldsymbol\theta}\left(x\right)=\boldsymbol\theta^T\boldsymbol{x}$ ，而在logistic回归中，拟合函数为：
$h_{\theta}\left(x\right)=g\left(\boldsymbol\theta^T\boldsymbol{x}\right)\\[3pt]其中，g\left(z\right)=\frac{1}{1+e^{-1}}$
有了拟合函数，按照线性回归的流程，下面就是代价函数了。如果logistic回归仍然采用和线性回归一样的代价函数，按照吴恩达老师在视频中的说法，由于拟合函数 $h_{\theta}\left(x\right)$ 的改变，会使最终的代价函数 $J\left(\boldsymbol\theta\right)$ 变为非凸的函数，从而无法很好地利用梯度下降法去求解。为此，在logistic回归中，代价函数变成了下列形式：
$J\left(\boldsymbol\theta\right)=\left\{ \begin{aligned} -\log\left(h_{\boldsymbol\theta}\left(x\right)\right),\ y=1 \\ -\log\left(1-h_{\boldsymbol\theta}\left(x\right)\right),\ y=0 \end{aligned} \right.$
为了简化公式，上述分段函数可以进一步写成：
$J\left(\boldsymbol\theta\right)=-y\log\left(h_{\boldsymbol\theta}\left(x\right)\right)-\left(1-y\right)\log\left(1-h_{\boldsymbol\theta}\left(x\right)\right)$
于是，针对m个训练集，最终的代价函数为：
$J\left(\boldsymbol\theta\right)=-\frac{1}{m}\sum_{i=1}^m\left[y^{\left(i\right)}\log{h_{\boldsymbol\theta}\left(x^{\left(i\right)}\right)}+\left(1-y^{\left(i\right)}\right)\log\left(1-h_{\boldsymbol\theta}\left(x^{\left(i\right)}\right)\right)\right]$
接下来的流程就和线性回归一致了，即利用梯度下降，通过多次迭代，最终得到一组合适的参数 $\boldsymbol{\theta}=\left[\theta_0,\theta_1,\dots,\theta_n\right]^T$ 。
$repeat\ until\ convergence\ \theta_j\coloneqq\theta_j-\alpha\frac{\partial}{\partial\theta_j}J\left(\boldsymbol{\theta}\right)$
针对每一个具体的 $\theta_j$ ，其具体的更新公式为：
$\theta_0\coloneqq\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_0^{\left(i\right)} \\ \theta_1\coloneqq\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_1^{\left(i\right)} \\ \theta_2\coloneqq\theta_2-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_2^{\left(i\right)}\\\dots\\ \theta_n\coloneqq\theta_n-\alpha\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_n^{\left(i\right)}$
尽管参数的更新公式和线性回归的更新公式一致，但拟合函数 $h_{\boldsymbol\theta}\left(x\right)$ 的形式已经发生改变。
下面给出logistic回归中梯度更新公式的具体推导流程：
为了便于推导，我们只考虑含有两个参数的情况（更多参数情况可以类推），即 $\boldsymbol\theta=[\theta_0,\theta_1]^T$ 。此时，
$h_{\boldsymbol\theta}\left(x\right)=\frac{1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}}$
$J\left(\boldsymbol\theta\right)=-y\log\left(\frac{1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}}\right)-\left(1-y\right)\log\left(1-\frac{1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}}\right)$
下面对 $\theta_1$ 进行求偏导(以自然对数 $e$ 作为底为例，以2为底也一样，只是多了一个常数):
$\frac{\partial}{\partial\theta_1}J\left(\boldsymbol{\theta}\right)=-y\left[1+e^{-\left(\theta_0+\theta_1x_1\right)}\right] \cdot \frac{x_1e^{-\left(\theta_0+\theta_1x_1\right)}}{\left[1+e^{-\left(\theta_0+\theta_1x_1\right)}\right]^2}-\\[4pt] \frac{1+e^{-\left(\theta_0+\theta_1x_1\right)}}{e^{-\left(\theta_0+\theta_1x_1\right)}} \cdot \frac{-x_1e^{-\left(\theta_0+\theta_1x_1\right)} \left( 1+e^{-\left(\theta_0+\theta_1x_1\right)} \right)+x_1e^{-2\left(\theta_0+\theta_1x_1\right)}}{\left[1+e^{-\left(\theta_0+\theta_1x_1\right)}\right]^2}+ \\[4pt] y \frac{1+e^{-\left(\theta_0+\theta_1x_1\right)}}{e^{-\left(\theta_0+\theta_1x_1\right)}} \cdot \frac{-x_1e^{-\left(\theta_0+\theta_1x_1\right)} \left( 1+e^{-\left(\theta_0+\theta_1x_1\right)} \right)+x_1e^{-2\left(\theta_0+\theta_1x_1\right)}}{\left[1+e^{-\left(\theta_0+\theta_1x_1\right)}\right]^2} \\[4pt] = -y \cdot \frac{x_1e^{-\left(\theta_0+\theta_1x_1\right)}}{1+e^{-\left(\theta_0+\theta_1x_1\right)}} + \frac{x_1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}} - \frac{yx_1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}} \\[4pt] =x_1\left( \frac{1}{1+e^{-\left(\theta_0+\theta_1x_1\right)}} -y \right)\\[4pt] = \left( h_{\theta}\left( x\right) -y \right)x_1$
考虑m个训练集：
$\frac{\partial}{\partial\theta_1}J\left(\boldsymbol{\theta}\right)=\frac{1}{m}\sum_{i=1}^m\left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)\cdot x_1^{\left(i\right)}$
其余参数推导流程一致。
除了利用梯度下降进行参数优化外，还有一些高级的优化方法，例如Conjugate gradient，BFGS，L-BFGS。感兴趣的可以自行学习。
以上就是线性回归和logistic回归的全部内容，欢迎交流~