吴恩达机器学习课程-第五周

J___code

于 2022-06-03 16:35:23 发布

阅读量124

点赞数

分类专栏：机器学习文章标签：机器学习神经网络反向传播

本文链接：https://blog.csdn.net/qq_41398418/article/details/125113728

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

1.神经网络的学习

1.1 代价函数

假设神经网络的训练样本有 $m$ 个，每个包含一组输入 $x$ 和一组输出信号 $y$ ， $L$ 表示神经网络的总层数， $s_l$ 表示在第 $l$ 层的神经元个数(不包括bias unit) ：

在这里插入图片描述

在逻辑回归中使用到的代价函数如下，它只有一个输出变量：

$J(\theta)=-\frac{1}{m}[\sum_{i=1}^my^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^n\theta^2_j$

而在神经网络中可以有多个输出变量，所以预测输出是一个维度为 $k$ 的向量 $h_\theta(x)$ ，且 $(h_\theta(x))_i$ 表示第 $i$ 个输出， $y_i$ 表示真实值的第 $i$ 个输出，和逻辑回归一样没有被偏置项进行正则化：

$J(\Theta)=-\frac{1}{m}\left[\sum_{i=1}^{m} \sum_{k=1}^{k} y_{k}^{(i)} \log \left(h_{\Theta}\left(x^{(i)}\right)\right)_{k}+\left(1-y_{k}^{(i)}\right) \log \left(1-\left(h_{\Theta}\left(x^{(i)}\right)\right)_{k}\right)\right]+\frac{\lambda}{2 m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_{l}} \sum_{j=1}^{s_{l}+1}\left(\Theta_{j i}^{(l)}\right)^{2}$

1.2 反向传播

前面的学习中介绍了神经网络的前向传播，下图是一个训练样本的前向传播过程：

在这里插入图片描述

现在为了计算偏导数 $\frac{d}{d\theta^{(l)}_{ij}}J(\theta)$ ，需要使用到反向传播。其中 $\delta_j^{(l)}$ 表示第 $l$ 层中第 $j$ 个神经元的误差值。从最后一层的误差开始计算，并且利用该层的误差继续计算上一层的误差值，依此类推：

$\delta^{(4)}=a^{(4)}-y$

$\delta^{(3)}=(\theta^{(3)})^T\delta^{(4)}·g^{'}(z^{(3)}),g^{'}(z^{(3)})=a^{(3)}·(1-a^{(3)})$

$\delta^{(2)}=(\theta^{(2)})^T\delta^{(3)}·g^{'}(z^{(2)})$

没有输入层的误差是因为输入是训练集，即实际观察到的数值，不需要改变

如果不做正则化处理时， $\frac{d}{d\theta^{(l)}_{ij}}J(\theta)=a_j^{(l)}\delta_i^{(l+1)}$ ，其中 $l$ 表示当前计算第几层， $j$ 表示当前层中激活单元的下标， $i$ 表示下一层中误差单元的下标

如果考虑正则化，且训练集有多个样本，则输入的是矩阵，误差值也应当是一个矩阵，采用 $\Delta_{ij}^{(l)}$ 表示，即第 $l$ 层的第 $i$ 个激活单元受到第 $j$ 个参数影响而导致的误差，整体算法流程如下：

在这里插入图片描述

求出 $\Delta_{ij}^{(l)}$ 后，可以计算代价函数的偏导数 $\frac{d}{d\theta^{(l)}_{ij}}J(\theta)=D_{ij}^{(l)}$ ，其中 $j = 0$ 即为偏执项单元的下标(意味着没有进行正则化)：

$D_{i j}^{(l)}:=\frac{1}{m} \Delta_{i j}^{(l)}+\lambda \Theta_{i j}^{(l)}$ if $\neq 0$
$D_{i j}^{(l)}:=\frac{1}{m} \Delta_{i j}^{(l)}$ if $j = 0$

1.3 理解反向传播

下图中前向传播计算 $z_1^{(3)}=\theta_{10}^{(2)}*1+\theta_{11}^{(2)}*a^{(2)}_1+\theta_{12}^{(2)}*a^{(2)}_2$ ，直观上的理解就是与 $z_1^{(3)}$ 相连的三个神经元值的加权和：

在这里插入图片描述

此时要计算下图中的 $\delta_2^{(2)}$ ，和前向传播中的权重和理念类似， $\delta_2^{(2)}=\theta_{12}^{(2)}\delta_1^{(3)}+\theta_{22}^{(2)}\delta_2^{(3)}$ ，直观理解就是和 $\delta_2^{(2)}$ 相连的两个神经元的误差加权和。至于前面计算误差中的 $g^{'}(z)$ 是什么，可以参考反向传播之我见，其中对具体推导有着更加详细的讲解

综上所述，前向传递输入信号直至输出产生误差，反向传播误差信息更新权重矩阵(摘自反向传播之我见)

1.4 梯度检验

对一个较为复杂的模型使用梯度下降算法时，可能会存在一些不容易察觉的错误，虽然代价看上去在不断减小，但最终的结果可能并不是最优解。为了避免该问题，采取梯度数值检验方法：

在 $J(\theta)$ 沿着切线的方向选择离两个非常近的点 $J(\theta+t)$ 和 $J(\theta-t)$
计算这两个点构成的直线的斜率，即图中红色线的斜率 $\frac{J(\theta+t)-J(\theta-t)}{2\xi}$
将红色线的斜率和蓝色线的斜率进行比较

在这里插入图片描述

当 $\theta$ 为向量时，代价函数中偏导数的检验在针对其中一个参数 $\theta_1$ 校验时： $\frac{d}{d\theta_1}=\frac{J(\theta_1+\xi,\theta_2,...+\theta_n)-J(\theta_1-\xi,\theta_2,...+\theta_n)}{2\xi}$