ML笔记——反向传播算法

最新推荐文章于 2023-12-24 23:01:38 发布

HerdingCat

最新推荐文章于 2023-12-24 23:01:38 发布

阅读量266

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/Fancy_Real/article/details/80450598

版权

Machine Learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

这里写链接内容目录

- 想法
- 数学表达

想法

如果将整个神经网络看作是一个复杂的函数 $F_\theta(x)$ ，那么与线性回归和逻辑回归相似，选取一些恰当的 $\theta$ 值就可以得到假设函数。

反向传播算法就是用来确定哪些恰当的 $\theta$ 值

数学表达

一些数学符号以及正向传播过程已经在神经网络中涉及，此处不做解释

神经网络中结合正则化后的代价函数（需判断是否是线性回归还是逻辑回归，此处给出的逻辑回归）：

$\begin{array}{2} J(\theta)=-\frac{1}{m} \sum^m_{i=1}\sum^k_{k=1} \left[y^i_k \ln(h_\theta(x^i)_k) + (1-y^i_k) \ln(1-h_\theta(x^i)_k) \right]+\frac{\lambda}{2m}\sum^{L-1}_{l=1}\sum^{s_l}_{i=1}\sum^{s_{l+1}}_{j=1}(\theta^l_{ji})^2\end{array}$

其中的

$m$ 表示训练集中的数据数量

$k$ 表示 $y$ 分类后的数量

$L$ 表示网络层数，之所以上界是 $L-1$ ，是因为传播过程次数比神经网络的层数少一

$s_l$ 表示第 $l$ 层上的神经节点总数

之后，就是选择 $\theta$ 使得 $\min_\theta J(\theta)$ ，考虑到导数越接近 $0$ 时， $J(\theta)$ 越接近最值；同时，借鉴梯度下降算法，则有

$\theta^l_{ij}= \theta^l_{ij}-\frac{\partial}{\partial \theta^l_{ij}}J(\theta)$

其中的学习速率设为 $1$

其中的

$\frac{\partial}{\partial \theta^l_{ij}}J(\theta)= \left\{ \begin{array}{2} -\frac{1}{m} \sum^m_{i=1}\sum^k_{k=1} \frac{\partial}{\partial \theta^l_{ij}} \left[y^i_k \ln(h_\theta(x^i)_k) + (1-y^i_k) \ln(1-h_\theta(x^i)_k) \right] + \frac{\lambda}{m} \theta^l_{ij} & j \ne 0 \\ -\frac{1}{m} \sum^m_{i=1}\sum^k_{k=1} \frac{\partial}{\partial \theta^l_{ij}} \left[y^i_k \ln(h_\theta(x^i)_k) + (1-y^i_k) \ln(1-h_\theta(x^i)_k) \right] & j = 0 \end{array} \right.$

上式中的偏导数又分两种情况

计算最后一层的偏导数

$\begin{equation} (1)\ h_\theta(x^i)_k = a^L_k, \\ (2)\ a^L_k = g(z^L_k) = \frac{1}{1+e^{-z^L_k}}, \\ (3)\ z^L_k = \theta^{L-1}_{k0}a^{L-1}_0 + \theta^{L-1}_{k1}a^{L-1}_1 + … + \theta^{L-1}_{ks_{l-1}}a^{L-1}_{s_{l-1}}\end{equation}$

令第 $k$ 个神经单元的代价函数为

$f_\theta(x) = y^i_k \ln(h_\theta(x^i)_k) + (1-y^i_k) \ln(1-h_\theta(x^i)_k)$

则

$\frac{\partial}{\partial \theta^{L-1}_{kj}} \left[y^i_k \ln(h_\theta(x^i)_k) + (1-y^i_k) \ln(1-h_\theta(x^i)_k) \right] = \frac{\partial}{\partial \theta^{L-1}_{kj}} f_\theta(x)$

由链式法则及 $(1),\ (2),\ (3)$ 得

$\frac{\partial}{\partial \theta^{L-1}_{kj}}f_\theta(x) = \frac{\partial f}{\partial a^L_k} \cdot \frac{\partial a^L_k}{\partial z^L_k} \cdot \frac{\partial z^L_k} {\partial \theta^{L-1}_{kj}}$

其中的

$\frac{\partial z^L_k}{\partial \theta^{L-1}_{kj}} = a^{L-1}_j,$
$\frac{\partial a^L_k} {\partial z^L_k} = \frac{e^{-z^L_k}}{(1+e^{-z^L_k})^2} = \frac{1}{1+e^{-z^L_k}} \cdot \frac{e^{-z^L_k}}{1+e^{-z^L_k}} = g(z^L_k)(1-g(z^L_k)) = a^L_k(1-a^L_k),$
$\frac{\partial f}{\partial a^L_k} = \frac{\partial} {\partial a^L_k} \left[y^i_k \ln(a^L_k) + (1-y^i_k)\ln(1-a^L_k) \right] \\ =\frac{y^i_k}{a^L_k}-\frac{1-y^i_k}{1-a^L_k} = \frac{y^i_k-a^L_k}{a^L_k(1-a^L_k)}$

则

$\frac{\partial}{\partial \theta^{L-1}_{kj}}f_\theta(x) = \frac{y^i_k-a^L_k}{a^L_k(1-a^L_k)} \cdot a^L_k(1-a^L_k) \cdot a^{L-1}_j = (y^i_k-a^L_k) a^{L-1}_j$
计算隐藏层的偏导数
对于隐藏层 $l$ 的中某个神经单元 $k$ 的偏差会影响下一层的所有神经单元
此外，隐藏层的假设函数不一定都是逻辑回归，此处假设使用逻辑回归
则令第 $l$ 层中第 $k$ 个神经单元的代价函数为

$f_\theta(z^{l+1}_1, … , z^{l+1}_{s_{l+1}}) = \sum^{s_{l+1}}_{\ell=1} \left[ y^{l+1}_\ell \ln(g(z^{l+1}_\ell)) + (1-y^{l+1}_\ell) \ln(1-g(z^{l+1}_\ell)) \right]$

注意：其中的 $y^{l+1}_\ell$ 表示第 $l+1$ 层上第 $\ell$ 个单元的相对正确的输出，而 $y^i_k$ 表示第 $i$ 组训练数据在最后一层中的相对正确的输出
选取第 $l$ 层的神经单元并对第 $l - 1$ 层的 $\theta$ 求偏导数，又由第一种情况可知，

$\frac{\partial}{\partial \theta^{l-1}_{kj}}f_\theta(z^{l+1}_1, … , z^{l+1}_{s_{l+1}}) = \frac{\partial f}{\partial a^l_k} \cdot \frac{\partial a^l_k}{\partial z^l_k} \cdot \frac{\partial z^l_k} {\partial \theta^{l-1}_{kj}},$
$\frac{\partial z^{l}_k}{\partial \theta^{l-1}_{kj}} = a^{l-1}_j,$
$\frac{\partial a^{l}_k} {\partial z^{l}_k} = a^{l}_k(1-a^{l}_k),$

由全微分性质不变性（全微分与网络的关系，知乎上有晓雷做的介绍）得
$\frac{\partial f}{\partial a^l_k} = \sum^{s_{l+1}}_{\ell=1} \frac{\partial f}{\partial z^{l+1}_\ell} \cdot \frac{\partial z^{l+1}_\ell}{\partial a^l_k} = \sum^{s_{l+1}}_{\ell=1} \frac{\partial f}{\partial a^{l+1}_\ell} \cdot \frac{\partial a^{l+1}_\ell}{\partial z^{l+1}_\ell}\cdot \frac{\partial z^{l+1}_\ell}{\partial a^l_k} = \sum^{s_{l+1}}_{\ell=1}(y^{l+1}_\ell-a^{l+1}_\ell) \theta^l_{\ell k}$

则

$\frac{\partial}{\partial \theta^{l-1}_{kj}}f_\theta(z^{l+1}_1, … , z^{l+1}_{s_{l+1}}) = \sum^{s_{l+1}}_{\ell = 1}(y^{l+1}_i-a^{l+1}_\ell) \theta^l_{\ell k} \cdot a^{l}_k(1-a^{l}_k) \cdot a^{l-1}_j$

由 $1,\ 2$ 两种情况下，不考虑正则化时可得代价函数的导数

$\frac{\partial}{\partial \theta^{l-1}_{kj}}J(\theta) = \left\{ \begin{array}{2} \frac{1}{m}\sum^m_{i=1}\sum^{s_l}_{k=1}(a^l_k - y^i_k)a^{l-1}_j & l = L \\ \frac{1}{m}\sum^m_{i=1}\sum^{s_l}_{k=1} \sum^{s_{l+1}}_{\ell =1}(a^{l+1}_\ell -y^{l+1}_\ell) \theta^l_{\ell k} \cdot a^{l}_k(1-a^{l}_k) \cdot a^{l-1}_j & l < L\end{array} \right.$

考虑将 $(a^l_k-y^i_k)$ 与 $\sum^{s_{l+1}}_{\ell=1} (a^{l+1}_\ell-y^{l+1}_\ell) \theta^l_{\ell k} \cdot a^l_k(1-a^l_k)$ 这种偏差用 $\delta^l_k$ 表示

结合 $1,\ 2$ 求偏导数过程

$\delta^l_k = \frac{\partial f}{\partial a^l_k} \cdot \frac{\partial a^l_k}{\partial z^l_k},$

也就是表示第 $l$ 层中的第 $k$ 个神经单元与目标的偏差

那么根据上面对 $\delta^l_k$ 的定义，对代价函数进行简化

注意到对隐藏层求偏导数的过程中有

$\frac{\partial f}{\partial a^l_k} = \sum^{s_{l+1}}_{\ell=1} \frac{\partial f}{\partial z^{l+1}_\ell} \cdot \frac{\partial z^{l+1}_\ell}{\partial a^l_k} = \sum^{s_{l+1}}_{\ell=1} \frac{\partial f}{\partial a^{l+1}_\ell} \cdot \frac{\partial a^{l+1}_\ell}{\partial z^{l+1}_\ell}\cdot \frac{\partial z^{l+1}_\ell}{\partial a^l_k}$

根据 $\delta^l_k$ 定义则有

$\frac{\partial f}{\partial a^l_k} =\sum^{s_{l+1}}_{\ell=1} \delta^{l+1}_\ell \cdot \frac{\partial z^{l+1}_\ell}{\partial a^l_k}$

则

$\frac{\partial}{\partial \theta^{l-1}_{kj}}J(\theta) = \left\{ \begin{array}{2} \frac{1}{m}\sum^m_{i=1}\sum^{s_l}_{k=1} \delta^{l}_k a^{l-1}_j & l = L \\ \frac{1}{m}\sum^m_{i=1}\sum^{s_l}_{k=1} \sum^{s_{l+1}}_{\ell =1}\delta^{l+1}_\ell \theta^l_{\ell k} \cdot a^{l}_k(1-a^{l}_k) \cdot a^{l-1}_j & l < L\end{array} \right.$

由上式可知，经过正向传播之后，可以求得输出层的偏差；然后就可以反向传播求得之前神经层的偏差，进而求得代价函数对 $\theta$ 的偏导数，最后利用梯度下降算法的思想，求得接近的 $\theta$ 值，生成一张拟合较好的神经网络。

HerdingCat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML笔记——反向传播算法

目录想法数学表达想法如果将整个神经网络看作是一个复杂的函数 Fθ(x)Fθ(x)F_\theta(x) ，那么与线性回归和逻辑回归相似，选取一些恰当的 θθ\theta 值就可以得到假设函数。反向传播算法就是用来确定哪些恰当的 θθ\theta 值数学表达一些数学符号以及正向传播过程已经在神经网络中涉及，此处不做解释神经网络中结合正则化后的代价函...
复制链接

扫一扫

专栏目录