随机梯度下降(SGD)，批量梯度下降(BGD)

最新推荐文章于 2024-01-26 20:28:53 发布

机器学习原理与实战

最新推荐文章于 2024-01-26 20:28:53 发布

阅读量340

点赞数

分类专栏：算法总结文章标签：机器学习梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40363423/article/details/98454720

版权

算法总结专栏收录该内容

13 篇文章 2 订阅

订阅专栏

损失函数图如下(不是严格的凸函数)：
在这里插入图片描述
批量梯度下降：每次迭代更新参数取全部的训练数据，对于每轮迭代每一个参数的更新也取全部数据。
随机梯度下降：每次迭代不取全量数据，对于每轮迭代每个参数的更新只取一个样本进行更新。
批量梯度下降有两个不足：1 训练速度慢，因为每次迭代更新参数都要遍历一遍数据的梯度，这是很费时的。2 不一定能走到全局最优点，有可能落在局部最优点就卡住了，停止迭代。
随机梯度下降解决了BGD的两个不足：1 训练速度快，每次迭代不取全量数据，对于每轮迭代每个参数的更新只取一个样本进行更新。对于凸函数损失函数，这样虽然精度没有BGD高，但最终也会走到最低点的附近。每次迭代的速度快了非常多，但要迭代的次数会比BGD多，但整体收敛的速度比BGD快很多。2 能脱离局部最优点，最终来到全局最优点的附近。

机器学习原理与实战

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降(SGD)，批量梯度下降(BGD)

损失函数图如下(不是严格的凸函数)：批量梯度下降：每次迭代更新参数取全部的训练数据，对于每轮迭代每一个参数的更新也取全部数据。随机梯度下降：每次迭代不取全量数据，对于每轮迭代每个参数的更新只取一个样本进行更新。批量梯度下降有两个不足：1 训练速度慢，因为每次迭代更新参数都要遍历一遍数据的梯度，这是很费时的。2 不一定能走到全局最优点，有可能落在局部最优点就卡住了，停止迭代。随机梯度下降解...
复制链接

扫一扫

专栏目录

机器学习原理与实战 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

29万+: 周排名

45万+: 总排名

9万+: 访问

: 等级

954: 积分

659: 粉丝

41: 获赞

50: 评论

257: 收藏

私信

关注

热门文章

分类专栏

最新评论

LightGBM算法详解
气死柯西: “右子节点的所有样本梯度之和为”这个的计算是错误的，并不是加单相加
为什么拟合残差能够减少损失？(或者为什么要对弱模型拟合残差得到残差树然后与弱模型线性相加得到较强模型？)
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7978435, 请多输出高质量博客, 帮助更多的人
LightGBM算法详解
科研萌新: 写得太好了，感谢！请问文中的公式图片是楼主自己打出来的还是哪里的论文里截图过来的？能否告知谢谢
LightGBM算法详解
顾青裴的狗腿子: EFB算法中，根据互斥特征对生成特征簇，一个簇里只可能包含两个特征吗？如果是包含更多，按照偏移量的方法处理，那针对离散变量，不就是相当于将one-hot回归到数值型的离散特征？这样会导致该特征的不同取值间出现大小关系
基于tensorflow2.x版本python代码实现深度学习分类预测（以lstm为例）
风会记得721: 您好，有预测模型的写法吗？我的预测出现'NoneType' object has no attribute 'predict'

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。