第二门课：改善深层神经网络＜超参数调试、正则化及优化＞-优化算法-CSDN博客

本文链接：https://blog.csdn.net/qq_43501462/article/details/136568069

本文详细介绍了Mini-batch梯度下降法，其与随机梯度下降的区别，以及指数加权平均数在优化波动和偏差方面的应用。RMSprop和Adam优化算法通过结合动量和RMSprop解决了摆动问题，加速学习。此外，文章还讨论了学习率衰减策略和避免局部最优的方法。

摘要由CSDN通过智能技术生成

文章目录

1 Mini-batch梯度下降
2 理解Mini-batch梯度下降法
3 指数加权平均数
4 理解指数加权平均数
5 指数加权平均的偏差修正
7 RMSprop<均方根传播>
8 Adam优化算法<Momentum与RMSprop结合>
9 学习率衰减
10 局部最优的问题

1 Mini-batch梯度下降

Batch梯度下降法：即使之前讲的梯度下降法，需要同时处理整个训练集，能够同时看到整个batch训练集的样本被处理。
Mini-batch梯度下降法：每次处理单个mini-batch的训练子集。
在这里插入图片描述
我们将每一个mini-batch记为X{t}，维度是(n_x,1000)，对应每个mini-batch的输出记为Y{t}，维度是(1,1000)
x(i)是第i个训练样本。
z[l]表示神经网络中第l层的z值，
X{t}来代表不同的mini-batch

2 理解Mini-batch梯度下降法

在这里插入图片描述
mini-batch 梯度下降，每次迭代后 cost 不一定是下降的，因为每次迭代都在训练不同的样本子集，但总体趋势应该是下降的。
mini-batch 的 size 大小<两种极端情况>：
大小 = m，就是batch梯度下降法
大小 = 1，就是随机梯度下降法
在这里插入图片描述

3 指数加权平均数

在这里插入图片描述

高值β，得到的曲线更平坦一些，因为多平均了几天的温度，所以曲线波动更小、更平坦，缺点是曲线进一步右移。
在这里插入图片描述

4 理解指数加权平均数

在这里插入图片描述

5 指数加权平均的偏差修正

在这里插入图片描述

v2根据指数加权平均公式得到v2=0.98v1+0.02\theta2，将v1代入得v2=0.0196 \theta1+0.02 \theta2
偏差修正可以帮助更好的预测温度，即从紫线变为绿线
2.2.6 动量梯度下降法
在这里插入图片描述

动量梯度下降法基本思想是计算梯度的指数加权平均数，并利用该梯度来更新权重。
在以上几个导数中，发现动量梯度下降法的本质是纵轴上的摆动平均值接近于0，但在横轴方向，所有的微分都指向横轴方向，因此横轴方向的平均值仍然较大。即纵轴方向摆动变小了，横轴方向运动更快。
在这里插入图片描述

7 RMSprop<均方根传播>

在这里插入图片描述

注：(dW)2
纵轴上的更新要被一个较大的数相除，就能消除摆动，而水平方向的更新则被较小的数相除。最终得到的更新会变成绿色线。
\varepsilon=10−8 保证分母不为 0
RMSprop 跟 Momentum 有很相似的一点，可以消除梯度下降和mini-batch梯度下降中的摆动，并允许你使用一个更大的学习率，从而加快你的算法学习速度。<不会偏离方向>