梯度下降法推导：多分类问题

Walden-2020

于 2022-10-02 16:29:59 发布

阅读量368

点赞数

分类专栏：深度学习笔记文章标签：分类机器学习算法

本文链接：https://blog.csdn.net/weixin_43408232/article/details/127135658

版权

深度学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

数据集格式
基于线性回归+sigmoid实现二分类的表达式
链式法则求导
最终表达式
参考资料

数据集格式

在机器学习多分类问题里数据集格式一般如下:
第 $i$ 个样本特征和标签写作：
$x^i=(x_1^i,x_2^i,x_3^i,...,x_d^i)^T \in R^d \\ y^i =(y_1^i,y_2^i,y_3^i,...,y_m^i)^T \in R^m$
其中 $d$ 代表输入的特征的维数， $m$ 代表输出类别的个数并对标签进行one-hot编码，
则完整的数据集可以写作：
$x^1,x^2,\ldots,x^n] \\ = \begin{bmatrix} x^1_1& x^2_1 &\ldots &x^n_1 \\ x^1_2& x^2_2 &\ldots &x^n_2 \\ \vdots& \vdots & \ddots & \vdots\\ x^1_d& x^2_d &\ldots &x^n_d \\ \end{bmatrix} \in R^{d*n} \\ Y=[ y^1,y^2,\ldots,y^n] \in R^{m*n}$

基于线性回归+sigmoid实现二分类的表达式

对于单个样本
$\\ =\begin{bmatrix} w_{11} & w_{12} & \ldots & w_{1d} \\ w_{21} & w_{22} & \ldots & w_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ w_{m1} & w_{m2} & \ldots & w_{md} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_d \end{bmatrix} + \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix} \\ = \begin{bmatrix} w_{11}*x_1+ w_{12} *x_2 + \ldots + w_{1d} *x_d+ b_1 \\ w_{21}*x_1 + w_{22} *x_2+ \ldots + w_{2d} *x_d+ b_2 \\ \vdots \\ w_{m1}*x_1 +w_{m2} *x_2 + \ldots + w_{md}*x_d+ b_m \end{bmatrix}$
使用 $so f t ma x$ 函数实现输出为实现多分类， $so f t ma x$ 函数表达式如下
给定
$o=\begin{bmatrix} o_1 \\ o_2 \\ \vdots \\o_m\end{bmatrix}$
$\hat{y}=\begin{bmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{bmatrix} = softmax(o)=\begin{bmatrix} \frac{e^{o_1}}{\sum_{i=1}^{m}e^{o_i} }\\ \frac{e^{o_2}}{\sum_{i=1}^{m}e^{o_i}} \\ \vdots \\ \frac{e^{o_m}}{\sum_{i=1}^{m}e^{o_i}} \end{bmatrix}$
对于多分类问题，使用最小化负对数似然作为损失函数，其表达式为

$L=-\log{P(Y|X)}= \sum_{i=1}^{n}-\log{P(y^i|x^i)}=\sum_{i=1}^{n}l(y_i,\hat{y_i})$
$l(y,\hat{y})$ 是针对于单个样本而定义的，具体写作
$l(y,\hat{y})=-\sum_{j=1}^{m}y_j\log{\hat{y_j}}$
其中 $y_j$ 为样本标签值， $\hat{y_j}$ 为样本预测值， $m$ 为one-hot向量长度，代表分类种类数。

链式法则求导

链式表达式

求解 $w_{jk}$ 和 $b_j$ 的导数需要使用链式求导法则
求导公式如下：
$\frac{\partial l}{\partial w_{jk}} = \frac{\partial l}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial o_j } \frac{\partial o_j}{\partial w_{jk}} \\ \frac{\partial l}{\partial b_j} = \frac{\partial l}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial o_j } \frac{\partial o_j}{\partial b_j}$

求解 $\frac{\partial l}{\partial \hat{o_j}}$

因为
$l(y,\hat{y})=-\sum_{j=1}^{m}y_j\log{\hat{y_j}} \\ \hat{y_j}=\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}$
则可得 $l$ 关于 $o_j$ 的表达式
$l(y,\hat{y})=-\sum_{j=1}^{m}y_j\log{\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}} } \\ = \sum_{j=1}^{m} y_j\log{ \sum_{i=1}^{m}e^{o_i}}-\sum_{j=1}^{m}y_j\log{e^{o_j}} \\ = \log{ \sum_{i=1}^{m}e^{o_i}}-\sum_{j=1}^{m}y_jo_j$
因此
$\frac{\partial{l}}{\partial{o_j}}= \frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j$

求解 $\frac{\partial o_j}{\partial w_{ij}}$

$o_j$ 关于 $w_{jk}$ 的表达式可写作
$o_j=w_{j1}*x_1+ w_{j2} *x_2 + \ldots + w_{jd} *x_d+ b_j$
则
$\frac{\partial{o_j}}{\partial{w_{jk}}}=x_k$

求解 $\frac{\partial o_j}{\partial b_j}$

$o_j$ 关于 $b_j$ 的表达式为
$o_j=w_{j1}*x_1+ w_{j2} *x_2 + \ldots + w_{jd} *x_d+ b_j$
则可得
$\frac{\partial o_j}{\partial b_j}=1$

最终表达式

梯度表达式

$\frac{\partial l}{\partial w_{jk}} = \frac{\partial l}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial o_j } \frac{\partial o_j}{\partial w_{jk}} = (\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j)x_k$
$\frac{\partial l}{\partial b_j} = \frac{\partial l}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial o_j } \frac{\partial o_j}{\partial b_j} = \frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j$

梯度更新表达式

$w$ 更新表达式

因为
$\frac{\partial l}{\partial w_{jk}} = (\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j)x_k$
则梯度更新表达式为
$w_{jk}=w_{jk}-\eta\frac{\partial l}{\partial w_i} \\ = w_{jk}-\eta (\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j)x_k$

$b$ 更新表达式

因为
$\frac{\partial l}{\partial b_j} = \frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j$
则梯度更新表达式为
$b_j=b_j-\eta\frac{\partial l}{\partial b_j} \\ = b_j-\eta\frac{e^{o_j}}{\sum_{i=1}^{m}e^{o_i}}-y_j$