机器学习之梯度下降法（GD）、随机梯度下降法（SGD）和随机平均梯度下降法（SAGD）

最新推荐文章于 2023-05-08 01:46:34 发布

ErbaoLiu

最新推荐文章于 2023-05-08 01:46:34 发布

阅读量1.3k

点赞数

分类专栏：机器学习自然语言处理文章标签：梯度下降法随机梯度下降法随机平均梯度下降法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L_15156024189/article/details/105357082

版权

机器学习同时被 2 个专栏收录

72 篇文章 6 订阅 ¥99.90 ¥299.90

订阅专栏

自然语言处理

44 篇文章 3 订阅 ¥99.90 ¥299.90

订阅专栏

本文详细介绍了机器学习中常用的优化算法——梯度下降法（GD）、随机梯度下降法（SGD）和随机平均梯度下降法（SAGD）。通过基本原理的阐述，分析了这些方法在求解损失函数最小值过程中的应用，以及它们在训练时间与精度上的权衡。SGD在训练时间上较短，但精度中等；SAGD在训练时间和精度上介于GD和SGD之间；GD虽然精度较高，但训练时间较长。

摘要由CSDN通过智能技术生成

目录

梯度下降法（Gradient Descent）

随机梯度下降法（Stochastic Gradient Descent，SGD）

随机平均梯度下降法（Stochasitc Average Gradient Descent，SAGD）

无论是机器学习（Machine Learning），还是深度学习（Deep Learning）都为建好的模型构建一个损失函数，然后通过求解损失函数最小值。求解方法很多，梯度下降方法是其中一种。下面我们逐个介绍梯度下降法（GD）、随机梯度下降法（SGD）和随机平均梯度下降法（SAGD）。先来看梯度下降法的基本思想。

基本原理

如果抛开具体场景，从数学抽象角度来看，无论是监督式还是非监督式，每个机器学习模型都有自己对应的损失函数，并且损失函数中包含了若干个未知的模型参数，我们假设 $f(x;\theta)$ 就是这样的损失函数。它是总体样本的损失，称之为总损失，它等于整体样本的平均损失。也就是：

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ErbaoLiu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。