随机梯度下降法(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972
————————————————
版权声明:本文为CSDN博主「玉心sober」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972

**

1拟合的函数h(theta)和损失函数

**在这里插入图片描述
Alt

**

2 、批量梯度下降的求解思路如下:(Batch gradient descent )

**
在这里插入图片描述

在这里插入图片描述
注意的是训练的所有值时m非常大。所以用到SGD随机梯度下降法(Stochastic gradient descent)

3.随机梯度下降的求解思路如下

m是用的样本

在这里插入图片描述

每个样本的损失函数,对theta求偏导得到对应梯度,来更新theta
Alt

3、对于上面的linear regression问题,与批量梯度下降对比,随机梯度下降求解的会是最优解吗?

(1)批量梯度下降—最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,

(2)随机梯度下降—虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。

4、梯度下降用来求最优解,哪些问题可以求得全局最优?哪些问题可能局部最优解?

对于上面的linear regression问题,最优化问题对theta的分布是unimodal,即从图形上面看只有一个peak,所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题,因为存在多个peak值,很有可能梯度下降的最终结果是局部最优。
————————————————
版权声明:本文为CSDN博主「玉心sober」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值