随机梯度下降法（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比

最新推荐文章于 2024-07-21 17:05:22 发布

qq1123703939

最新推荐文章于 2024-07-21 17:05:22 发布

阅读量718

点赞数 1

分类专栏： pytorch学习代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq1123703939/article/details/100553443

版权

pytorch学习代码专栏收录该内容

7 篇文章 0 订阅

订阅专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/lilyth_lilyth/article/details/8973972
————————————————
版权声明：本文为CSDN博主「玉心sober」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/lilyth_lilyth/article/details/8973972

**

1拟合的函数h(theta)和损失函数

** 在这里插入图片描述
Alt

**

2 、批量梯度下降的求解思路如下：（Batch gradient descent ）

**
在这里插入图片描述

在这里插入图片描述
注意的是训练的所有值时m非常大。所以用到SGD随机梯度下降法（Stochastic gradient descent）

3.随机梯度下降的求解思路如下

m是用的样本

在这里插入图片描述

每个样本的损失函数，对theta求偏导得到对应梯度，来更新theta
Alt

3、对于上面的linear regression问题，与批量梯度下降对比，随机梯度下降求解的会是最优解吗？

（1）批量梯度下降—最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，

（2）随机梯度下降—虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

4、梯度下降用来求最优解，哪些问题可以求得全局最优？哪些问题可能局部最优解？

对于上面的linear regression问题，最优化问题对theta的分布是unimodal，即从图形上面看只有一个peak，所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题，因为存在多个peak值，很有可能梯度下降的最终结果是局部最优。
————————————————
版权声明：本文为CSDN博主「玉心sober」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/lilyth_lilyth/article/details/8973972

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。