学习笔记-随机梯度下降法

《神经网络和深度学习》:https://nndl.github.io/

梯度下降法中,目标函数是整个训练集上的风险函数,这种方式称为批量梯度下降法(Batch Gradient Descent,BGD)。批量梯度下降法在 每次迭代时需要计算每个样本上损失函数的梯度并求和.当训练集中的样本数量N很大时,空间复杂度比较高,每次迭代的计算开销也很大。
真正的优化目标是期望风险最小,批量梯度下降法相当于是从真实数据分布中采集N个样本,并由它们计算出来的经验风险的梯度来近似期 望风险的梯度。为了减少每次迭代的计算复杂度,我们也可以在每次迭代时只 采集一个样本,计算这个样本损失函数的梯度并更新参数,即随机梯度下(Stochastic Gradient Descent,SGD)。当经过足够次数的迭代时,随机梯度下降也可以收敛到局部最优解。
批量梯度下降和随机梯度下降之间的区别在于,每次迭代的优化目标是对所有样本的平均损失函数还是对单个样本的损失函数。

随机梯度下降的缺点是无法利用计算机的并行计算能力,所以有了小批量梯度下降法,它是两种方法的折中,随机选取一小部分训练样本来计算梯度并更新参数。
在这里插入图片描述
在实际应用中,小批量随机梯度下降法有收敛快、计算开销小的优点,因此 逐渐成为大规模的机器学习中的主要优化算法。

#使用随机梯度下降的优化器
optimizer = optim.SGD(model.parameters(),lr = 0.01, momentum = 0.9)
optimizer = optim.Adam([var1,var2],lr = 0.0001)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值