深度学习—加快梯度下降收敛速度(一):mini-batch、Stochastic gradient descent

本文探讨如何加速深度学习模型的收敛速度,主要介绍mini-batch和Stochastic gradient descent两种方法。mini-batch通过分组计算梯度,提高更新参数的效率,而Stochastic gradient descent每次迭代使用单个样本,尽管速度较快但收敛路径曲折。对比来看,mini-batch在速度和稳定性间取得平衡,常优于传统的batch gradient descent。
摘要由CSDN通过智能技术生成

在深层神经网络那篇博客中讲了,深层神经网络的局部最优解问题,深层神经网络中存在局部极小点的可能性比较小,大部分是鞍点。因为鞍面上的梯度接近于0,在鞍面上行走是非常缓慢的。因此,必须想办法加速收敛速度,使其更快找到全局最优解。本文将介绍mini-batch与Stochastic gradient descent方法。

这里写图片描述

1.mini-batch

之前的梯度下降法是将训练集所有的梯度计算之后,再更新参数,这样大部分时间浪费在计算梯度上。而mini-batch是将训练集分组,分组之后,分别对每组求梯度,然后更新参数。加入分 8组,则每次迭代将会做8次梯度下降,更新8次参数。所以mini-batch比传统的梯度下降法下降的速度快,但是mini-batch的cost曲线没有传统梯度下降法的cost曲线光滑,大致对比如下:

梯度下降过程
这里写图片描述

mini-batch下降过程
这里写图片描述

mini-batch实现步骤:

  • 确定mini-batch size,一
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值