Ng深度学习笔记改善深层神经网络优化算法

最新推荐文章于 2022-10-11 15:18:39 发布

CeciliaFinch

最新推荐文章于 2022-10-11 15:18:39 发布

阅读量224

点赞数

本文链接：https://blog.csdn.net/DoloresFinch/article/details/109155114

版权

本文详细介绍了深度学习中优化算法的进展，从Mini-batch梯度下降法开始，讨论了其原理和优势。接着，探讨了指数加权平均数在优化中的应用，以及动量梯度下降法和RMSprop如何改善优化过程。最后，重点介绍了广泛使用的Adam优化算法，它是动量和RMSprop的结合，有效解决了局部最优问题，加速了学习过程。

摘要由CSDN通过智能技术生成

优化算法

Mini-batch 梯度下降（Mini-batch gradient descent）
- 理解mini-batch梯度下降法（Understanding mini-batch gradient descent）
指数加权平均数（Exponentially weighted averages）
- 指数加权平均的偏差修正（Bias correction in exponentially weighted averages）
动量梯度下降法（Gradient descent with Momentum）
RMSprop（root mean square prop）
Adam 优化算法(Adam optimization algorithm)
学习率衰减(Learning rate decay)
局部最优的问题(The problem of local optima)

Mini-batch 梯度下降（Mini-batch gradient descent）

向量化能够有效地对所有个样本进行计算而无需某个明确的公式。所以我们要把训练样本放大巨大的矩阵当中去。

但如果m很大的话，处理速度仍然缓慢。必须处理整个训练集，然后才能进行一步梯度下降法，然后你需要再重新处理训练样本，才能进行下一步梯度下降法。

所以如果你在处理完整个500万个样本的训练集之前，先让梯度下降法处理一部分，算法速度会更快：

把训练集分割为小一点的子集训练，这些子集被取名为mini-batch，假设每一个子集中只有1000个样本，那么把其中的到取出来，将其称为第一个子训练集，也叫做mini-batch，然后你再取出接下来的1000个样本，从到，然后再取1000个样本，以此类推。

把 $x^{(1)}$ 到 $x^{(1000)}$ 称为 $x^{\{1\}}$ ， $x^{(1001)}$ 到 $x^{(2000)}$ 称为 $x^{\{2\}}$ ，如果训练样本一共有500万个，每个mini-batch都有1000个样本，也就有5000个mini-batch.对y也要进行相同处理。
在这里插入图片描述

符号总结：

使用了上角小括号表示训练集里的值， $x^{(i)}$ 是第个训练样本。
上角中括号来表示神经网络的层数， $z^{[l]}$ 表示神经网络中第l层的值
大括号来代表不同的mini-batch， $x^{\{t\}}和 y^{\{t\}}$ .

$x^{\{t\}}和 y^{\{t\}}$ 的维数：对于有1000个样本的训练集， $X^{ {1}}$ 维数应该是 $n_{x},1000)$ ， $X^{ {2}}$ 的维数应该是 $n_{x},1000)$ ，以此类推。因此所有的子集维数都是 $n_{x},1000)$ ，而这些（ $Y^{ { t}}$ ）的维数都是 $(1, 1000)$ 。

mini-batch梯度下降法的原理: 在训练集上运行mini-batch梯度下降法，因为我们有5000个各有1000个样本的组, 运行for t=1……5000，因为我们有5000个各有1000个样本的组，在for循环里你要做得基本就是对 $X^{ {t}}$ 和 $Y^{ {t}}$ 执行一步梯度下降法。
在这里插入图片描述