吴恩达深度学习2笔记week2——优化算法 Optimization Algorithms
- 2.1 Mini-batch 梯度下降法 Mini-bath gradient descent
- 2.2 理解 mini-batch 梯度下降法 Understanding mini-batch gradient descent
- 2.3 指数加权平均 Exponentially weighted averages
- 2.4 理解指数加权平均 Understanding exponentially weighted averages
- 2.5 指数加权平均的偏差修正 Bias correction in exponentially weighted average
- 2.6 动量梯度下降法 Gradient descent with momentum
- 2.7 RMS prop——root mean square(均方根) prop——消除梯度下降中的摆动
- 2.8 Adam 优化算法 Adam optimization algorithm
- 2.9 学习率衰减 Learning rate decay
- 2.10 局部最优的问题 The problem of local optima
2.1 Mini-batch 梯度下降法 Mini-bath gradient descent
- 向量化一次性解决1000个样本问题
2.2 理解 mini-batch 梯度下降法 Understanding mini-batch gradient descent
- mini-batch size
Batch gradient descend:mini-batch size=m
随机梯度下降:mini-batch size=1
2.3 指数加权平均 Exponentially weighted averages
2.4 理解指数加权平均 Understanding exponentially weighted averages
- 指数衰减函数 an exponentially decaying function
2.5 指数加权平均的偏差修正 Bias correction in exponentially weighted average
2.6 动量梯度下降法 Gradient descent with momentum
2.7 RMS prop——root mean square(均方根) prop——消除梯度下降中的摆动
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201228133132548.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1NhdWx0eQ==,size_16,color_FFFFFF,t_70
2.8 Adam 优化算法 Adam optimization algorithm
- 将momentum和RMSprop结合在一起
- adaptive moment estimation
初始化
计算momentum指数加权平均数
偏差修正
更新权重
- 超参数
2.9 学习率衰减 Learning rate decay
-
学习率下降方法1
-
指数衰减 exponential decay
2.10 局部最优的问题 The problem of local optima
- 导数为0可能是鞍点saddle point,而不是局部最优解