对梯度下降算法的理解

最新推荐文章于 2022-03-26 21:44:15 发布

大音希声呀

最新推荐文章于 2022-03-26 21:44:15 发布

阅读量881

点赞数

分类专栏：梯度下降文章标签：算法机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47056652/article/details/122364560

版权

梯度下降专栏收录该内容

1 篇文章 0 订阅

订阅专栏

算法目标：

探寻让损失函数达到最小值的参数。通过不停的调整函数权值，改变各个神经元的权重，从而让损失函数下降的更快，进而找到损失函数的极小值。

算法核心思想:

梯度：表示从该点出发，函数值增长最为迅猛的方向！

通过一次一次的迭代，逐步找到函数的极小值。其中α为学习率，如果α过大，不容易收敛。梯度下降需要遍历样本的所有成员，因此求各个权值的梯度会很费资源。

算法的主要问题：

一当数据量过大，收敛过程可能非常慢。

二如果函数有多个局部极小值，容易局部收敛！

SGD随机梯度下降

SGD遵循“一样本，一迭代”。先随机挑选一个样本，然后根据单个样本的误差调整权值。这样简化带来了很大便利，对于一个具有数百万的训练集合，完成一次样本遍历就能对权值更新数百万次，而梯度下降要遍历数百万样本后，才能对权值更新一次！！！

SGD和梯度下降的折中：Batchsize

梯度下降是针对所有样本的，是并行的，它的时间复杂度要低一些，但是容易局部收敛！

SGD是一样本，一迭代，虽然能更好的找到最小值，但是时间复杂度比较大！

如下图：

大音希声呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对梯度下降算法的理解

算法目标：探寻让损失函数达到最小值的参数。通过不停的调整函数权值，改变各个神经元的权重，从而让损失函数下降的更快，进而找到损失函数的极小值。算法核心思想:梯度：表示从该点出发，函数值增长最为迅猛的方向！通过一次一次的迭代，逐步找到函数的极小值。其中α为学习率，如果α过大，不容易收敛。梯度下降需要遍历样本的所有成员，因此求各个权值的梯度会很费资源。算法的主要问题：一当数据量过大，收敛过程可能非常慢。二如果函数有多个局部极小值，容易局部收敛！SGD随机梯度下降SG
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。