梯度下降法推导：逻辑回归二分类问题

Walden-2020

已于 2022-10-02 16:30:06 修改

阅读量548

点赞数

分类专栏：深度学习笔记文章标签：逻辑回归分类机器学习

于 2022-10-01 17:19:18 首次发布

本文链接：https://blog.csdn.net/weixin_43408232/article/details/127040316

版权

深度学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

数据集格式
基于线性回归+sigmoid实现二分类的表达式
链式法则求导
最终表达式

数据集格式

在机器学习里数据集格式一般如下:
第 $i$ 个样本特征和标签写作：
$x^i=(x_1^i,x_2^i,x_3^i,...,x_d^i)^T \in R^d \\ y^i \in R$
完整的数据集可以写作：
$x^1,x^2,\ldots,x^n] \\ = \begin{bmatrix} x^1_1& x^2_1 &\ldots &x^n_1 \\ x^1_2& x^2_2 &\ldots &x^n_2 \\ \vdots& \vdots & \ddots & \vdots\\ x^1_d& x^2_d &\ldots &x^n_d \\ \end{bmatrix} \in R^{d*n} \\ y=[ y^1,y^2,\ldots,y^n] \in R^n$

基于线性回归+sigmoid实现二分类的表达式

对于单个样本
$w^Tx+b \\ = w_1x_1+ w_2x_2+\ldots+w_dx_d+b$
使用 $s i g m o i d$ 函数实现输出为 $0 - 1$ 之间，从而实现二分类， $s i g m o i d$ 函数表达式如下
$\sigma (z) = \frac{1}{1+e^{-z}} = \frac{e^z}{1+e^z}$
使用 $cross - e n t ro p y$ 作为损失函数，对于二分类问题，其表达式为
$g(z^i)=-y^i \log{(\sigma(z^i))}-(1-y^i) \log{(1-\sigma(z^i))}$
则损失函数可写作
$L=\frac{1}{n} \sum_{i=1}^{n}(g(z^i))=\frac{1}{n} \sum_{i=1}^{n}(-y^i \log{(\sigma(z^i))}-(1-y^i) \log{(1-\sigma(z^i))})$

链式法则求导

链式表达式

求解 $w$ 和 $b$ 的导数需要使用链式求导法则
求导公式如下：
$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial g} \frac{\partial g}{\partial \sigma} \frac{\partial \sigma}{\partial z} \frac{\partial z}{\partial w_i} \\ \frac{\partial L}{\partial b} = \frac{\partial L}{\partial g} \frac{\partial g}{\partial \sigma} \frac{\partial \sigma}{\partial z} \frac{\partial z}{\partial b}$

求解 $\frac{\partial L}{\partial g}$

$L$ 关于 $g$ 的表达式可写作
$L=\frac{1}{n} \sum_{i=1}^{n}(g)=g$
因此
$\frac{\partial L}{\partial g}=1$

求解 $\frac{\partial g}{\partial \sigma}$

$g$ 关于 $\sigma$ 的表达式可写作
$\log{(\sigma)}-(1-y) \log{(1-\sigma)}$
则可得
$\frac{\partial g}{\partial \sigma} = \frac{\partial (-y \log{(\sigma)}-(1-y) \log{(1-\sigma)})}{\partial \sigma} \\ = -y \frac{\partial \log{(\sigma)}}{\partial \sigma} -(1-y) \frac{\partial \log{(1-\sigma)}}{\partial \sigma} \\ =-\frac{y}{\sigma} + \frac {1-y}{1-\sigma}$

求解 $\frac{\partial \sigma}{\partial z}$

$\sigma$ 关于 $z$ 的表达式可写作
$\sigma (z) = \frac{1}{1+e^{-z}} = \frac{e^z}{1+e^z}$
则
$\frac{\partial \sigma}{\partial z}=\frac{\partial (\frac{1}{1+e^{-z}}) }{\partial z} \\ =-\frac{1}{(1+e^{-z})^2}\times e^{-z} \times (-1) \\ =\frac{e^{-z} }{(1+e^{-z})^2}=\sigma(1-\sigma)$

求解 $\frac{\partial z}{\partial w}$

$z$ 关于 $w$ 的表达式为 $z = w^Tx+b$
则可得
$\frac{\partial z}{\partial w_i}=x_i,i=1,2,\ldots,d$

求解 $\frac{\partial z}{\partial b}$

$z$ 关于 $w$ 的表达式为 $z = w^Tx+b$
则可得
$\frac{\partial z}{\partial b}=1$

最终表达式

梯度表达式

$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial g} \frac{\partial g}{\partial \sigma} \frac{\partial \sigma}{\partial z} \frac{\partial z}{\partial w_i} \\ = 1\times(-\frac{y}{\sigma} + \frac {1-y}{1-\sigma} ) \times \sigma(1-\sigma) \times x_i \\ = x_i(-y(1-\sigma)+\sigma(1-y)) \\ = x_i(\sigma-y) \\ \frac{\partial L}{\partial b} = \frac{\partial L}{\partial g} \frac{\partial g}{\partial \sigma} \frac{\partial \sigma}{\partial z} \frac{\partial z}{\partial b} \\ = 1\times(-\frac{y}{\sigma} + \frac {1-y}{1-\sigma} ) \times \sigma(1-\sigma) \times 1 \\ = -y(1-\sigma)+\sigma(1-y) \\ = \sigma-y \\$

梯度更新表达式

$w$ 更新表达式

因为
$\frac{\partial L}{\partial w_i} =x_i(\sigma-y)$
则梯度更新表达式为
$w_i=w_i-\eta\frac{\partial L}{\partial w_i} \\ = w_i-\eta x_i(\sigma-y)$
则
$\begin{bmatrix} w_1\\ w_2\\ \vdots \\ w_d\\ \end{bmatrix}=\begin{bmatrix} w_1\\ w_2\\ \vdots \\ w_d\\ \end{bmatrix}-\eta(\sigma-y)\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_d\\ \end{bmatrix}$
即
$w=w-\eta(\sigma-y)x$