梯度下降法的推导

iflink.guojl

已于 2023-05-07 14:48:35 修改

阅读量2.3k

点赞数 2

分类专栏：算法文章标签：机器学习算法深度学习

于 2022-01-09 00:16:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iflink/article/details/122388904

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度下降法的推导

01. 问题
02. 什么是梯度
03. 梯度推导
- 3.1 一阶泰勒展开式
- 3.2 梯度下降法推论
04. 梯度下降是用来做什么的?
05. 优缺点
- 5.1 优点
- 5.1 缺点
06. 总结

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

01. 问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。
在这里插入图片描述

02. 什么是梯度

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
在这里插入图片描述

03. 梯度推导

3.1 一阶泰勒展开式

在这里插入图片描述
不懂上面的公式？没有关系。我用下面这张图来解释。

3.2 梯度下降法推论

知道了一阶泰勒展开式之后，我们来看看梯度下降算法是如何推导的。
在这里插入图片描述

04. 梯度下降是用来做什么的?

在机器学习算法中,有时候需要对原始的模型构建损失函数，然后通过优化算法对损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法(Gradient Descent, GD)。

05. 优缺点

5.1 优点

效率。在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，可以在很多大规模数据集上应用

5.1 缺点

求解的是局部最优值，即由于方向选择的问题，得到的结果不一定是全局最优步长选择，过小使得函数收敛速度慢，过大又容易找不到最优解。

06. 总结

我们通过一阶泰勒展开式，利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法，但也许对它的推导过程并不清楚。看了本文，你是否有所收获呢？

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法的推导

梯度下降法的推导01. 问题02. 什么是梯度03. 梯度推导3.1 一阶泰勒展开式3.2 梯度下降法推论04. 梯度下降是用来做什么的?05. 优缺点5.1 优点5.1 缺点06. 总结梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。01. 问题假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。