逻辑回归的推导和理解（公式清晰）

最新推荐文章于 2023-05-29 14:41:30 发布

Y_蒋林志

最新推荐文章于 2023-05-29 14:41:30 发布

阅读量746

点赞数 4

分类专栏：机器学习基础课笔记文章标签：逻辑回归机器学习概率论

本文链接：https://blog.csdn.net/qq_37233260/article/details/118560179

版权

机器学习基础课笔记专栏收录该内容

20 篇文章 6 订阅

订阅专栏

文章目录

前言

Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。LR也是面试时常需要手撕的模型，本文从各种角度推导了LR的相关公式，希望对大家有帮助（未完待续）。

模型建立推导

由线性回归的定义式出发， $h_{\theta}(x)$ 是预测值：
$h_{\theta}(x)=\sum_{i=0}^n{\theta _i}x_i=\theta ^Tx$
Sigmoid函数（s型函数）：
$g(x)=\frac{1}{1+e^{-x}}$
在这里插入图片描述
Sigmoid函数求导有如下结果（后面推导会用到）：
$g^{\prime}(x)=\left( \frac{1}{1+e^{-x}} \right) ^{\prime}=\frac{e^{-x}}{\left( 1+e^{-x} \right) ^2} \\=\frac{1}{1+e^{-x}}\cdot \frac{e^{-x}}{1+e^{-x}}\\=\frac{1}{1+e^{-x}}\cdot \left( 1-\frac{1}{1+e^{-x}} \right) \\ =g(x)\cdot (1-g(x))$

将 $\theta ^Tx$ 代入Sigmoid函数：
$h_{\theta}(x)=g\left( \theta ^Tx \right) =\frac{1}{1+e^{-\theta ^Tx}}$

模型求解推导

一般的二分类问题，可以记作：

$\begin{aligned} P(y=1\mid x;\theta )&=h_{\theta}(x)\\ P(y=0\mid x;\theta )&=1-h_{\theta}(x)\\ \end{aligned}$
其中用 $h_{\theta}(x)$ 代替概率值 $\theta$ 。

将两式归为一个式子：
$p(y\mid x;\theta )=\left( h_{\theta}(x) \right) ^y\left( 1-h_{\theta}(x) \right) ^{1-y}$

假定样本独立，求似然函数：
$\begin{aligned} L(\theta )&=p(\vec{y}\mid X;\theta )\\ &=\prod_{i=1}^m{p}\left( y^{(i)}\mid x^{(i)};\theta \right)\\ &=\prod_{i=1}^m{\left( h_{\theta}\left( x^{(i)} \right) \right) ^{y^{(i)}}}\left( 1-h_{\theta}\left( x^{(i)} \right) \right) ^{1-y^{(i)}}\\ \end{aligned}$

两边取对数：
$l(\theta )=\log L(\theta )=\sum_{i=1}^m{y^{(i)}}\log h\left( x^{(i)} \right) +\left( 1-y^{(i)} \right) \log \left( 1-h\left( x^{(i)} \right) \right)$

求偏导（注意，这里仅是对一个θ求）：
$\frac{\partial l(\theta )}{\partial \theta _j}=\sum_{i=1}^m{\left( \frac{y^{(i)}}{h\left( x^{(i)} \right)}-\frac{1-y^{(i)}}{1-h\left( x^{(i)} \right)} \right)}\cdot \frac{\partial h\left( x^{(i)} \right)}{\partial \theta _j} \\ =\sum_{i=1}^m{\left( \frac{y^{(i)}}{g\left( \theta ^Tx^{(i)} \right)}-\frac{1-y^{(i)}}{1-g\left( \theta ^Tx^{(i)} \right)} \right)}\cdot \frac{\partial g\left( \theta ^Tx^{(i)} \right)}{\partial \theta _j} \\ =\sum_{i=1}^m{\left( \frac{y^{(i)}}{g\left( \theta ^Tx^{(i)} \right)}-\frac{1-y^{(i)}}{1-g\left( \theta ^Tx^{(i)} \right)} \right)}\cdot g\left( \theta ^Tx^{(i)} \right) \cdot \left( 1-g\left( \theta ^Tx^{(i)} \right) \right) \cdot \frac{\partial \theta ^Tx^{(i)}}{\partial \theta _j} \\ =\sum_{i=1}^m{\left( y^{(i)}\left( 1-g\left( \theta ^Tx^{(i)} \right) \right) -\left( 1-y^{(i)} \right) g\left( \theta ^Tx^{(i)} \right) \right)}\cdot x_{j}^{(i)} \\ =\sum_{i=1}^m{\left( y^{(i)}-g\left( \theta ^Tx^{(i)} \right) \right)}\cdot x_{j}^{(i)}$

注意最后一项求导之后仅剩下了 $x_{j}^{(i)}$ 。

为了求最大似然估计，要用到梯度下降：

$\theta _j:=\theta _j+\alpha \left( y^{(i)}-h_{\theta}\left( x^{(i)} \right) \right) x_{j}^{(i)}$

比较线性回归和逻辑回归的梯度下降规则：

$\theta _j:=\theta _j+\alpha \sum_{i=1}^m{\left( y^{(i)}-h_{\theta}\left( x^{(i)} \right) \right)}x_{j}^{(i)} \\ \theta _j:=\theta _j+\alpha \left( y^{(i)}-h_{\theta}\left( x^{(i)} \right) \right) x_{j}^{(i)}$

一点思考

可以观察到： $h_{\theta}$ 函数不一样，但学习规则是一样的。区别是什么？逻辑回归是假定模型服从二项分布，而线性回归是假定模型服从高斯分布，包括泊松分布，这三者之间有一个共同的属性，他们都属于指数族分布，都是广义的线性模型。

损失函数的角度

A. 假设实际值的取值在-1到1之间

$y_i\in \{-1,1\} \\ \hat{y}_i=\left\{ \begin{matrix} p_i& y_i=1\\ 1-p_i& y_i=-1\\ \end{matrix} \right.$

可以凑出：

$L(\theta )=\prod_{i=1}^m{p_{i}^{\left( y_i+1 \right) /2}}\left( 1-p_i \right) ^{-\left( y_i-1 \right) /2}$

两边取对数：
$l(\theta )=\sum_{i=1}^m{\ln}\left[ p_{i}^{\left( y_i+1 \right) /2}\left( 1-p_i \right) ^{-\left( y_i-1 \right) /2} \right]$
代入 $p_i=\frac{1}{1+e^{-f_i}}$ 并通分：
$l(\theta )=\sum_{i=1}^m{\ln}\left[ \left( \frac{1}{1+e^{-f_i}} \right) ^{\left( y_i+1 \right) /2}\left( \frac{1}{1+e^{f_i}} \right) ^{-\left( y_i-1 \right) /2} \right]$

取最大就是最大似然，取反取最小就是负的对数似然，求出损失函数：

$\therefore \mathrm{loss}\left( y_i,\hat{y}_i \right) =-l(\theta ) \\ =\sum_{i=1}^m{\left[ \frac{1}{2}\left( y_i+1 \right) \ln \left( 1+e^{-f_i} \right) -\frac{1}{2}\left( y_i-1 \right) \ln \left( 1+e^{f_i} \right) \right]}$
写开为两个式子：
$=\left\{ \begin{matrix} \sum_{i=1}^m{\left[ \ln \left( 1+e^{-f_i} \right) \right]}& y_i=1\\ \sum_{i=1}^m{\left[ \ln \left( 1+e^{f_i} \right) \right]}& y_i=-1\\ \end{matrix} \right.$
观察到 $y_i$ 和 $f_i$ 的符号相同，可以写到一起。最后的损失函数：

$\Rightarrow \mathrm{loss}\left( y_i,\hat{y}_i \right) =\sum_{i=1}^m{\left[ \ln \left( 1+e^{-y_i\cdot f_i} \right) \right]}$

B. 若 $y_i$ 取值发生改变

$y_i\in \{0,1\} \\ \hat{y}_i=\left\{ \begin{matrix} p_i& y_i=1\\ 1-p_i& y_i=0\\ \end{matrix} \right.$

则损失函数推导如下：
$L(\theta )=\prod_{i=1}^m{p_{i}^{y_i}}\left( 1-p_i \right) ^{1-y_i} \\ \Rightarrow l(\theta )=\sum_{i=1}^m{\ln}\left[ p_{i}^{y_i}\left( 1-p_i \right) ^{1-y_i} \right] \\ \quad \frac{p_i=\frac{1}{1+e^{-fi}}}{\longrightarrow}l(\theta )=\sum_{i=1}^m{\ln}\left[ \left( \frac{1}{1+e^{-f_i}} \right) ^{y_i}\left( \frac{1}{1+e^{f_i}} \right) ^{1-y_i} \right] \\ \therefore \mathrm{loss}\left( y_i,\hat{y}_i \right) =-l(\theta ) \\ =\sum_{i=1}^m{\left[ y_i\ln \left( 1+e^{-f_i} \right) +\left( 1-y_i \right) \ln \left( 1+e^{f_i} \right) \right]}$
两种都是一个意思，只是第一种的更简洁。

任何一个样本都是有标记值和估计值，也可以从交叉熵来解释逻辑回归。

Y_蒋林志

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归的推导和理解（公式清晰）

前言Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。LR也是面试时常需要手撕的模型，本文从各种角度推导了LR的相关公式，希望对大家有帮助（未完待续）。模型建立推导由线性回归的定义式出发，hθ(x)h_{\theta}(x)hθ(x)是预测值：hθ(x)=∑i=0nθixi=θTxh_{\theta}(x)=\sum_{i=0}^n{\theta _i}x_i=\theta ^Txhθ(x)=i=0∑nθixi=θTxSigmoid函数（s
复制链接

扫一扫