优化算法提高训练速度

mini batch

1.样本太多时5万,尽管是向量化也解决不了问题,这时选择mini-batch 梯度下降

2.每个epoch会梯度下降m/mini-batch size 次

3.cost曲线会有更多的噪音走势向下

4.当mini-batch size=1时会变成新的算法,随机梯度下降,放弃了向量化对训练速度的提升

当mini-batch size=m时会变成新的算法,batch梯度下降,不适合数据量大的情况

mini-batch size ,最好为2^n

5.随机梯度下降只会到cost最小值附近,不会收敛

动量法:

1.指数加权平均

右侧是vt约等于几天的温度平均

指数衰减函数*温度

偏差修正

v0=0 v1=βv0+(1-β)seita1,可知v1会远远小于seita1

vt=vt/(1-β^t),因为β小于1,所以随着t的增大,函数值将趋向于vt,前期会使v1更靠近seita

4.

nesterov算法 考虑未来

adagrad 自适应学习率

RMSprop算法

adam算法

损失函数来调整参数,损失函数的最低点处差异最小。

梯度下降就是将初始化好的参数一点点的调整,来使得损失函数值一点点地变小达到最小值局部最小值。 

学习率衰减

1.衰减公式

2. 指数衰减与其他衰减公式

最低点通常是鞍点

天哪 听不懂怎么办

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值