1.1.13. Stochastic Gradient Descent - SGD(随机梯度下降)

1.1.13. Stochastic Gradient Descent - SGD

在这里插入图片描述

随机梯度下降

“随机梯度下降是一种简单但是效果很好的,用来拟合线性模型的算法。并且,他在那些样本量,特征数量巨大的情况时特别有用。”

为什么这么说呢?我们知道,传统的梯度下降,也就是批量梯度下降,它是依照每一个样本,计算出他们的梯度,再统一更新的。这样,虽然我们得到的梯度会非常准确,下降速度也会很快,但是因为计算梯度是一件很麻烦的事(涉及到逆矩阵的运算),所以求梯度这件事本身会带来很大的影响(即大大增加训练时长)。

所以,为了避免这种情况,缩短训练模型的时间(本质是避免计算大规模样本的梯度的时间和算力的损耗),我们运用近似的思想,每次只选择一个样本,并借助它的梯度来迭代。

虽然,这样会导致(因为每次迭代的方向不是全局最优)

  1. 需要更多的迭代次数才能收敛
  2. 很可能收敛不到全局最优

但是它的好处也是很明显的:

  1. 面对大样本多特征时,整体的速度更快快
  2. 会收敛到全局最优附近(这种结果往往可以接受,还能一定程度上防止过拟合)
  3. 可以跳出一部分极小值从而使函数收敛到全局最小

sklearn在这一章将它作为一个线性模型来介绍,但是,作为机器学习领域更普遍的算法,他还有很多的应用,具体内容被sklearn放在了有监督学习的第五章。

mini-batch梯度下降

mini-batch梯度下降是批量梯度下降和随机梯度下降的折中,他可以在减少批量梯度下庞大计算量的同时还保证了下降的方向不至于偏离的太厉害。

实际上,随机梯度下降就是mini-batch梯度下降的mini-batch=1时的特殊情况。但在实际运用中,他更多的是作为SGD的一部分出现(可能是因为SGD更有名吧,而且mini-batch确实难听了些)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值