逻辑回归（logistic regression）

最新推荐文章于 2023-04-21 21:09:01 发布

Blijiojiodibuliduo

最新推荐文章于 2023-04-21 21:09:01 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：逻辑回归

本文链接：https://blog.csdn.net/burning1996/article/details/102697664

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

定义

在前面介绍的线性回归模型中，因变量是在一定数值区间的变量，建立的模型是表示因变量和自变量之间的线性关系。线性回归模型通常是处理因变量是连续变量的问题。因此，对于分类问题，线性回归模型不适用。由于线性回归模型的输出值是在不确定的范围内，无法对应到若干分类中。因此需要采用逻辑回归模型。

逻辑回归是用于处理因变量为分类变量的回归问题。常见的二分类和二项分布。

函数表示

逻辑回归模型的函数是： $h_\theta \left( x \right)=g\left(\theta^{T}X \right)$
其中： $X$ 代表特征向量， $\theta$ 为 $(\theta_0, \theta_1, \theta_2...\theta_n)$
$g$ 代表逻辑函数（logistic function)，是一个常用的S形逻辑函数（Sigmoid function），公式为： $g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。
其中 $\theta^{T}X$ 。该模型的输出变量范围始终在0和1之间。
该sigmoid函数的图像为：

判定边界

在逻辑回归中，判定边界就是能够将 $y = 0$ 和 $y = 1$ 的区域分隔开的曲线。

在这里插入图片描述
在逻辑回归中，我们预测：

当 ${h_\theta}\left( x \right)>=0.5$ 时，预测 $y = 1$ 。
当 ${h_\theta}\left( x \right)<0.5$ 时，预测 $y = 0$ 。

根据上面绘制出的 S 形函数图像，我们知道当

$z = 0$ 时 $g (z) = 0.5$
$z > 0$ 时 $g (z) > 0.5$
$z < 0$ 时 $g (z) < 0.5$

又 $z={\theta^{T}}x$ ，即： ${\theta^{T}}x>=0$ 时，预测 $y = 1$ ； ${\theta^{T}}x<0$ 时，预测 $y = 0$

现在假设我们有一个模型

在这里插入图片描述
并且参数 $\theta$ 是向量[-3 1 1]。所以当 $-3+{x_1}+{x_2} \geq 0$ ，即 ${x_1}+{x_2} \geq 3$ 时，模型将预测 $y = 1$ 。我们可以绘制直线 ${x_1}+{x_2} = 3$ ，这条线便是我们模型的分界线，将预测为1的区域和预测为0的区域分隔开。

损失函数

在这里插入图片描述
如何得到拟合逻辑回归模型的参数 $t h a t e$ ?

在线性回归模型中，我们定义的损失函数是所有模型误差的平方和。理论上说，我们也可以对逻辑回归模型使用这个损失函数。

但是如果我们将函数 ${h_\theta}\left( x \right)=\frac{1}{1+{e^{-\theta^{T}x}}}$ 带入损失函数 $J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}{{\left( {h_\theta}\left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$ 中，我们得到的损失函数将是一个非凸函数（non-convexfunction）

由图像可知，由于非凸函数有许多局部最小值，当使用梯度下降算法寻找全局最小值时很有可能找到的是局部最小值。因此，该损失函数不适用于逻辑回归模型。

我们重新定义逻辑回归模型的损失函数为： $J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)}$ ，其中

这样构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 函数的特点是：当标签值 $y = 1$ 且 ${h_\theta}\left( x \right)$ 也为 1 时误差为 0，当 $y = 1$ 但 ${h_\theta}\left( x \right)$ 不为1时误差随着 ${h_\theta}\left( x \right)$ 变小而变大；当标签值 $y = 0$ 且 ${h_\theta}\left( x \right)$ 也为 0 时代价为 0，当 $y = 0$ 但 ${h_\theta}\left( x \right)$ 不为 0时误差随着 ${h_\theta}\left( x \right)$ 的变大而变大。

将构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 简化如下： $Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$ ，当 $y = 1$ 时，后面一项为0， $y = 0$ 时，前面一项为0，和上述 $Cost\left( {h_\theta}\left( x \right),y \right)$ 等价

将简化后的带入损失函数得到： $J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$

梯度下降

在得到损失函数之后，我们就可以使用梯度下降算法来求得能使损失函数最小的参数。

梯度下降算法的流程为：

Repeat { $\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)$ (simultaneously update all ) }

求偏导的结果为：

Repeat { $\theta_j := \theta_j - \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}$ (simultaneously update all ) }

通过上面的公式，更新参数 $\theta$ 的值，直到参数不再改变，得到全局最小值，使得损失函数最小。

求偏导的推导过程

$J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$ 考虑： ${h_\theta}\left( {{x}^{(i)}} \right)=\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}}$ 则： ${{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)$ $={{y}^{(i)}}\log \left( \frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)$ $=-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^T}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^T}{{x}^{(i)}}}} \right)$

所以： $\frac{\partial }{\partial {\theta_{j}}}J\left( \theta \right)=\frac{\partial }{\partial {\theta_{j}}}[-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^{T}}{{x}^{(i)}}}} \right)]}]$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\frac{-x_{j}^{(i)}{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}{1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}]$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{{y}^{(i)}}\frac{x_j^{(i)}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}]$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}x_j^{(i)}-x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}+{{y}^{(i)}}x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}\left( 1\text{+}{{e}^{{\theta^T}{{x}^{(i)}}}} \right)-{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}x_j^{(i)}}$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}}$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}}$ $=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}-{h_\theta}\left( {{x}^{(i)}} \right)]x_j^{(i)}}$ $=\frac{1}{m}\sum\limits_{i=1}^{m}{[{h_\theta}\left( {{x}^{(i)}} \right)-{{y}^{(i)}}]x_j^{(i)}}$

虽然逻辑回归梯度下降算法得到的公式表面上和线性回归的梯度算法一样，但是这里的 ${h_\theta}\left( x \right)=g\left( {\theta^T}X \right)$ 与线性回归中不同，所以实际上是不一样的。另外，在运行梯度下降算法之前，进行特征缩放依旧是非常必要的。

以上为逻辑回归模型的大致全过程

正则化

过拟合和欠拟合

过拟合：high variance（高方差），数据离散程度很高，在训练集上能够得到很好的拟合，但是在训练集以外的数据集上不能很好的拟合，即泛化能力差，不能很好适应于新的数据集。
欠拟合：high bias（高偏差），在训练集上表现就很差，没有很好的拟合训练数据集，误差很大。

如何解决过拟合和欠拟合

解决欠拟合：

添加其他特征项
添加多项式特征
减少正则化参数

解决过拟合：

减少特征数量，丢弃一些不能帮我们正确预测的特征。
正则化。保留所有特征，但是减参数的大小，从而减少特征数量造成的过拟合问题。

下面是一个回归问题的例子：

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集；
第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；
而中间的模型似乎最合适。

正则化

上面的回归问题中如果我们的模型是： ${h_\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}+{\theta_{4}}{x_{4}^4}$

我们可以看出，正是高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。所以我们要做的就是在一定程度上减小这些参数 $\theta$ 的值，这就是正则化的基本方法。

为了高次项的系数接近于0，我们要做的便是修改损失函数，对其中 ${\theta_{3}}$ 和 ${\theta_{4}}$ 设置惩罚。于是修改后的损失函数如下： $\underset{\theta }{\mathop{\min }}\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{\left( {{h}_{\theta }}\left( {{x}^{(i)}} \right)-{{y}^{(i)}} \right)}^{2}}+1000\theta _{3}^{2}+10000\theta _{4}^{2}]}$ 。为了使得这个损失函数最小，于是 ${\theta_{3}}$ 和 ${\theta_{4}}$ 也需要尽可能的小。于是我们的目的达到。

假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，于是我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。于是得到了一个较为简单的能防止过拟合问题的损失函数： $J\left( \theta \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}$

其中 $\lambda$ 又称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对 ${\theta_{0}}$ 进行惩罚，因为 $x_0$ 全为1，于是 $\theta_0$ 相当于截距b

当我们令 $\lambda$ 的值很大的话，为了使Cost Function 尽可能的小，所有的 $\theta$ 的值（不包括 ${\theta_{0}}$ ）都会在一定程度上减小。这样特征数量造成的过拟合问题就解决了。但若 $\lambda$ 的值太大了，那么 $\theta$ （不包括 $\theta_0$ ）都会趋近于0，这样我们所得到的只能是一条平行于 $x$ 轴的直线。所以对于正则化，我们要取一个合理的 $\lambda$ 的值，这样才能更好的应用正则化。

参考资料：
逻辑回归
 机器学习–吴恩达

Blijiojiodibuliduo

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归（logistic regression）

定义在前面介绍的线性回归模型中，因变量是在一定数值区间的变量，建立的模型是表示因变量和自变量之间的线性关系。线性回归模型通常是处理因变量是连续变量的问题。因此，对于分类问题，线性回归模型不适用。由于线性回归模型的输出值是在不确定的范围内，无法对应到若干分类中。因此需要采用逻辑回归模型。逻辑回归是用于处理因变量为分类变量的回归问题。常见的二分类和二项分布。函数表示逻辑回归模型的...
复制链接

扫一扫