深度学习常见算法之梯度下降法

最新推荐文章于 2024-09-04 15:33:47 发布

HangoverLG

最新推荐文章于 2024-09-04 15:33:47 发布

阅读量2.6k

点赞数

文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HangoverLG/article/details/110728861

版权

1.梯度下降算法
梯度：如果函数是一维变量，则梯度就是倒数的方向
如果是大于一维的，梯度就是在这个点的法向量，并指向数值最高的等值线，这就是求最小值的时候要用负梯度的原因
在这里插入图片描述

梯度下降法是最早也是最简单，最常用的最优化算法。当目标函数是凸函数时，梯度下降算法的解是全局解，一般情况下，其解不保证是全局最优解，梯度下降的速度也未必是最快的。梯度下降法的最优化思想也是用当前位置负梯度方向最为搜索方向，因为该方向为当前位置的最快下降方向，梯度下降法越接近目标值步长越长，前进越慢。

在这里插入图片描述

梯度下降法的缺点：
1 靠近极小值时收敛速度减慢
2.直线搜索时可能会产生一些问题
3.可能会‘之’字形下降
在这里插入图片描述

利用梯度下降法求解需要很多次的迭代，在机器学习中，基于基本的梯度下降法发展了一下三种梯度下降的方法：

1.1 批量梯度下降法（BGD)
在这里插入图片描述

1.2 随机梯度下降法(SGD)
在这里插入图片描述

1.3 SGD和BGD的比较
可以看到SGD和BGD是两个极端 SGD由于每次参数的更新仅仅需要计算一个样本的梯度，训练的速度很快，及时在样本的量很大的情况下，可以只需要其中一部分就能迭代到最优解，由于每次迭代并不是都想着整体最有的方向，导致梯度下降的波动很大，很容易从一个局部最优解跳到另一个局部最优解，准确度下降
BGD:最小化所有的训练样本的损失函数，使得最终求解的是全局最优解，即使得求解的风险函数最小，但是对于大规模的样本效率太低。
SGD:最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都是想着全局最优解的方向但是大方向是全局最优解的方向，最终的结果往往在最优解的附近，适用于大规模的训练样本情况。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。