改善深层神经网络第二周 优化算法

作业参考https://blog.csdn.net/sdu_hao/article/details/85013946 。
2.1 mini-batch梯度下降法
神经网络不能很好地利用大数据因为运行的太慢了,mini-batch梯度下降法可以提高运行速度。
将训练集分为很多baby training sets,叫做mini-batches.
用X{t},Y{t}做一步梯度下降,而不是用所有训练集。
在这里插入图片描述
在这里插入图片描述
for t = 1, …, T
可以进行多次epoch训练,而且每次epoch,最好是将总体训练数据重新打乱、重新分成T组mini-batches, 有利于训练出最佳的神经网络模型。

2.2 理解mini-batch梯度下降法
用mini-batch梯度下降法做出的代价图会有噪音,但是总体趋势是向下的。
在这里插入图片描述
如何选择mini-batch的大小:
如果mini-batch为m, 就是运行的(批)梯度下降;如果mini-batch为1,就是运行的随机梯度下降,永远不会收敛,而是会一直在最小值附近波动。最好的方法是mini-batch大小在1到m之间。
当数据集很小(m<=2000)时,直接用批梯度下降。
一般的mini-batch大小为2的几次方,64,128,256或512. 具体可以多试几次。
在这里插入图片描述

2.3 指数加权平均
还有一些算法比梯度下降快,需要用到指数加权平均,在统计中也叫指数加权移动平均。
vt大约可以看成是1/(1-β)天的平均温度,所以vt越大线越平缓,因为多平均了几天的温度,线也更向右移动,出现一定延迟。
在这里插入图片描述
在这里插入图片描述

2.4 理解指数加权平均
我们看看vt到底是什么:构建一个指数衰减函数,v100就是以前每日的数值乘以对应的衰减函数值()叫做偏差修正。
β为0.9时,仿佛在计算一个指数加权平均数,只关注了过去10天的温度,因为再往前所有天的温度权重下降到不到当日权重的三分之一,可以忽略不计。
beta为0.98时,在计算温度θ的加权指数平均数, 只关注了过去50天的温度,因为再往前所有天的温度权重下降到不到当日权重的三分之一,可以忽略不计。
我们平均了大约1/(1-beta)天的温度。epsilon=1-beta.
在这里插入图片描述
计算指数加权平均数是不断覆盖的,所以只占单行数字的储存和内存。
在这里插入图片描述

2.5 指数加权平均的偏差修正 bias correction
β为0.98时,真正得到不是绿色线而是紫色线,会开始于更低的位置。
可以看出前几次(初始阶段)并不能很好地表示温度,而是更低,修正办法是不用vt表示,而是用 vt/(1- βt)表示,就去除了偏差。当t变大时,βt接近于0,绿线和紫线基本重合。
在这里插入图片描述

2.6 动量梯度下降
动量momentum梯度下降运行更快,简单说就是,计算梯度的指数加权平均数,并利用该梯度更新权重。
我们希望纵向波动更小,横向很快地接近最优解。
动量梯度下降需要我们在每次(第t次)迭代的过程中,计算dw,db,计算dw和db的移动平均数,然后重新赋值权重。这样纵轴上的摆动变小了,横轴方向运动更快。
不需要做偏差修正。
下下图公式中紫色的是另一种写法,两者等效只是对最佳学习率的选择不同,老师觉得左边更清楚一些。
理解:梯度下降是让球从碗里滚下来,dw,db相当于提供了加速度,vdw,vdv代表速度,β表示摩擦。
在这里插入图片描述
在这里插入图片描述

2.7 RMSprop
root mean square prop算法也可以加速梯度下降。并允许你用更大的学习率加快学习速度。
在这里插入图片描述

2.8 Adam优化算法
Adam算法结合了前两种算法,并且是一种极其常用的学习算法。
在这里插入图片描述
在这里插入图片描述
学习率要调试。

2.9 学习率衰减
加快学习速度是一个办法是随时间慢慢减小学习率。因为在学习初期的时候可以承受较大的步伐,但当开始收敛的时候,小一些的学习率可以让你的步伐小一些。
在这里插入图片描述
在这里插入图片描述
decay-rate衰减率是另一个超级参数,需要调试。所以要多试几次学习率和衰减率。
另一些使学习率逐渐下降的方法:
指数衰减:让学习率呈指数下降。

在这里插入图片描述

2.10 局部最优问题
神经网络因为J被定义在高维度维度空间,实际上大概率是右图,没有很多局部最优解,最优点又叫鞍点。
在这里插入图片描述
在这里插入图片描述
平缓段确实使学习速度慢,这也是动量梯度下降等优化算法能够加速学习的地方。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值