逻辑回归(Logistic Regression)推导证明

最新推荐文章于 2022-08-16 09:02:56 发布

Taneeyo

最新推荐文章于 2022-08-16 09:02:56 发布

阅读量765

点赞数

分类专栏：机器学习文章标签：算法机器学习逻辑回归

本文链接：https://blog.csdn.net/Taneeyo/article/details/110579119

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

逻辑回归(Logistic Regression)推导证明

逻辑回归是一个线性模型，是机器学习的基础重要模型之一。
目标：实现分类
数据集(样本)：
$X\sqsubseteq\mathbb{R}^N\\f(\boldsymbol x;\omega,b)=\omega_1x_1+\omega_2x_2+...+\omega_Nx_N+b$ 增广形式： $f(\boldsymbol x;\omega)=\omega_0x_0+\omega_1x_1+\omega_2x_2+...+\omega_Nx_N\;\;\;(x_0=1)$
解释一下，f这个函数是典型线性模型函数。其中 $\omega={\lbrack\omega_{1,}\omega_2,...\omega_N\rbrack}^T$ 是N维的权重向量，b是偏置。当解决线性回归问题时，我们直接用 $f(x;\omega)$ 即可预测输出目标。
但是在分类问题中，这样直接使用 $f(x;\omega)$ 不太好，有点不太对劲呢。所以我们引入一个非线性的决策函数 $g (z)$ 来输出目标。
$y=g(f(\boldsymbol x;\omega))$
这个g(z)一般也可以说是激活函数，有很多种选择。甚至都可以自定义的。比如，类似符号函数的定义：
$g(z)=\left\{\begin{array}{l} +1\;\ if\;z>0\\-1\; \ if\;z<0\end{array}\right.$
这里函数值的+1,-1就可以作为2分类问题的输出了。比如我要区分男女，1表示男，-1表示女。这个g（z）就可以用来作为输出的函数。

逻辑回归模型

(一) 目标函数

现在正经的来介绍一下逻辑回归模型。
现在用 $y\in\{0,1\}$ 表示二分类问题的分类情况。
现在引入了概率的思路：给一个n维变量x，计算它是1类的概率，如果大于0.5就说明他是1类反正为0类。
他是 1类的概率为： $P(y=1\vert\boldsymbol x)$
现在我们的工作就是把这个概率和线性模型看看怎么联系起来。
现在回头看看前面写的那一堆，就是在说这个事。选择一个激活函数，输出不是0就是1不久行了嘛，这个模型中选用的是sigmoid函数：
$sigmoid\;g(z)=\frac1{1+e^{-z}}$
它的导数很有意思： $g'(z)=g(z)\times\left[1-g(z)\right]$

sigmoid函数图像为：
在这里插入图片描述

那么我们把他表示为概率 $P(y=1\vert\boldsymbol x)=g(f(\boldsymbol x;w))$
这一步需要想清楚！！！
我们的目标函数就是这个，现在写规范一点就是：
$h(x)=g(f(\boldsymbol x;\omega))$

（二）损失函数

这里使用交叉熵作为损失函数
$loss(\omega)=-\frac1N\sum_{i=1}^N\left[y^{(i)}\;\log(h(x^{(i)}))+(1-y^{(i)})\log(1-h(x^{(i)}))\right]$
求它的偏导数
$\frac{\partial loss(\omega)}{\partial(\omega)}=-\frac1N\sum_{i=1}^N\left[\;\frac{y^{(i)}}{h(x^{(i)})}-\frac{(1-y^{(i)})}{1-h(x^{(i)})}\right]\frac{\partial h(x^{(i)};\omega)}{\partial(\omega)}$
$\Rightarrow-\frac1N\sum_{i=1}^N\left[\;\frac{y^{(i)}}{h(x^{(i)})}-\frac{(1-y^{(i)})}{1-h(x^{(i)})}\right]h(x^{(i)})(1-h(x^{(i)}))\frac{\omega^Tx}{\partial(\omega)}$
$\Rightarrow-\frac1N\sum_{i=1}^N\left[\;y^{(i)}(1-h(x^{(i)}))-(1-y^{(i)})h(x^{(i)})\right]x^{(i)}$
$\Rightarrow-\frac1N\sum_{i=1}^N\left[\;y^{(i)}-\;y^{(i)}h(x^{(i)})-h(x^{(i)})+h(x^{(i)})y^{(i)}\right]x^{(i)}$
$\Rightarrow-\frac1N\sum_{i=1}^N\left[\;y^{(i)}-h(x^{(i)})\right]x^{(i)}$
综上：
$\frac{\partial loss(\omega)}{\partial\omega}=-\frac1N\sum_{i=1}^N\left[\;y^{(i)}-h(x^{(i)})\right]x^{(i)}$
如果不是增广形式，就要带上个偏置b，同理
$\frac{\partial loss(w;b)}{\partial b}=-\frac1N\sum_{i=1}^N\left[\;y^{(i)}-h(x^{(i)})\right]$

（三）优化算法

1.梯度下降法 GD

梯度下降法详细推导

$\omega_{t+1}=\omega_t-\alpha\frac{\partial loss(\omega)}{\partial\omega}\ (\alpha是学习率)$
$\omega_{t+1}=\omega_t+\alpha\frac1N\sum_{i=1}^N\left[\;y^{(i)}-h(x^{(i)})\right]x^{(i)}$
2.随机梯度下降法 SGD
$\omega_{t+1}=\omega_t-\alpha\frac{\partial loss(\omega)}{\partial\omega}$
只用当前点来更新
$\omega_{t+1}=\omega_t+\alpha\left[\;y^{(i)}-h(x^{(i)})\right]x^{(i)}$
3.牛顿法
$\omega_{t+1}=\omega_t-\alpha H^{-1}(\omega)\frac{\partial loss(x;\omega)}{\partial\omega}$
$H^{-1}$ 是Hessian矩阵的逆