梯度下降之BGD、SGD和MBGD总结对比

批梯度下降(BGD, batch gradient descent),计算公式如下,每次梯度下降往样本总体损失函数减少的方向更新.

 

 优点:以梯度下降最快的方向收敛。

缺点:每次更新参数都要计算全部样本,计算量很大,尤其当样本数量很大的时候。

随机梯度下降(SGD, stochastic gradient descent),计算公式如下,按照每个样本损失函数下降最快的方向更新。

优点:每次更新参数计算量小,加快迭代速度

缺点:并不是沿着J(θ)下降最快的方向收敛,而是震荡的方式趋向极小点

二者的收敛情况如下图

小批量梯度下降(MBGD, Mini-batch gradient descent),计算公式如下,将样本分为若干个小的batch,按照每个batch损失函数下降最快的方向更新。如下图,每个batch有10个样本,每次更新参数就按照这10个样本的梯度下降方向更新。

结合了BGD和SGD的优点,迭代速度比BGD快,且精度比SGD高。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值