梯度下降

最新推荐文章于 2023-03-10 15:40:23 发布

海绵大爷

最新推荐文章于 2023-03-10 15:40:23 发布

阅读量225

点赞数 1

文章标签：梯度下降最优解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hanrui4721960/article/details/80723638

版权

梯度下降

直白点说就是我们希望使Cost Function最小，通过对目标函数的W（权重）求偏导，来更新W的一个过程。

很多情况下，我们只能找到的是局部最优解，如果损失函数是凸函数的话我们也可以找到全局最优。那么就需要对梯度下降进行优化。在机器学习中，有俩种梯度下降的优化过程，一个是随机梯度下降，一个是批量梯度下降。

BGD（Batch Gradient Descent）更新每一个参数都会使用所有的样本，用于在已知真个训练集是的一种训练方式，但是对于大规模数据并不合适。batch指的是每次更新theta都需要所有的数据集。

引用(-柚子皮-）博客的一段话，对于批量梯度下降法，样本个数m，x为n维向量，一次迭代需要把m个样本全部带入计算，迭代一次计算量为m*n2.但是这个算法有俩个缺陷:数据集很大的时候，训练过程计算量太大；需要得到所有的数据才能开始训练点。

为此，引入了另外一种方法，随机梯度下降（SGD,Stochastic Gradient Descent）。
随机梯度下降对损失函数进行了改写：
这样的话损失函数对应的就是每个样本的细粒度

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

关于最优解的问题

批量梯度下降是最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是会受到数据量的限制。随机梯度下降是最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。