吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

最新推荐文章于 2024-03-06 02:25:04 发布

草莓甜Swag

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量610

点赞数

分类专栏：机器学习神经网络

本文链接：https://blog.csdn.net/weixin_39714797/article/details/87098525

版权

14 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

是对应网易云课程吴恩达机器学习第十章的笔记。

在这一章，我们想要学习一个给定训练集，确定神经网络参数的算法。

首先我们先从确定参数的代价函数说起。

由代价函数的计算公式可知，当我们使用递归向下或其他高级算法计算使得代价函数 $J(\Theta )$ 最小时的 $\Theta$ 时，我们需要得到这两项的计算方案。

先以单一训练集为例，介绍反向传播算法。

首先，使用正向传播算法可以得到每层每个神经元的激活值。

之后，我们使用反向传播算法，得到计算每一个神经元的偏差的公式。 $\delta _{j}^{(l)}$ ：第l层第j个神经元的偏差，实际上也就捕捉到了该神经元激活值 $a _{j}^{(l)}$ 的误差。

其中，经验证， $g'(z^{(i)})$ 可以表示为 $a^{(i)}*(1-a^{(i)})$ ，此处我们仅计算到 $\delta^{(2)}$ 。因为 $a^{(1)}=x^{(i)}$ 直接取得，不存在偏差。

我们可以通过不严格证明得到，=，此时我们暂不考虑 $\lambda$ ，也即暂时认为 $\lambda=0$ 。至此，我们得到了单一训练集下的代价函数偏导数计算公式。

上图展示了将矩阵向量化和从向量转化为矩阵的方式。

实现数值上的梯度检验的步骤：

梯度下降法和高级优化算法，一般会给出 $\Theta$ 向量的一个初始值，如果将该向量初始化为n*1的零矩阵，则对于每一次迭代，每个下一个隐藏层的神经元对每个特征学到的权重都是相同的，也即产生了很多冗余，学不到什么有趣的特征。所以，我们需要考虑随机初始化的思想。

随机初始化的思想是，将 $\Theta$ 的每一个元素初始化为一个与0接近的值，也即初始化 $\Theta _{ij}^{(l)}$ 为 $[-\varepsilon ,\varepsilon ]$ 的一个随机值。然后进行反向传播、梯度检验、梯度下降或其他高级优化算法对代价函数进行优化，从而打破了对称性。

当我们实现一个神经网络时，我们要做以下事情。

选择神经网络架构，也即神经元之间的连接方式，一般有两种默认选项：（1）只有一个隐藏层，这种较为常用（2）有多个隐藏层，每个隐藏层有多个神经单元，一般隐藏单元数越多越好，隐藏单元一般等于特征数或是其几倍时比较好，当然，数目多也会带来较高的运算量。
随机初始化权重。
实现前向传播算法，对于每一个 $x^{(i)}$ 计算 $h_{\Theta }(x^{(i)})$
实现计算代价函数的代码。
实现反向传播算法计算代价函数J相对于 $\Theta$ 的偏导数。具体来说是使用for循环对每一个训练样本进行前向传播和反向传播的迭代，得到2...L每层的激励值 $a^{(l)}$ 和delta项 $\delta ^{(l)}$ ，从而计算出导数矩阵，现在高级的向量算法也可以不使用for，但它仍然是非常基础的。
梯度检验。
梯度下降或其他高级优化算法，因为代价函数通常是非凸函数，所以时常收敛到一个局部最小值而非全局，但实际证明该值通常是很小的。反向传播计算出的是下降的方向，而梯度下降算法负责下降。