为什么梯度反方向是函数值下降最快的方向？

最新推荐文章于 2024-07-27 16:39:35 发布

置顶

忆臻

最新推荐文章于 2024-07-27 16:39:35 发布

阅读量1.5w

点赞数 21

分类专栏：机器学习与深度学习算法文章标签：为什么梯度反方向是函数值下降最快的方向

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yizhen_acmer/article/details/54670733

版权

刚接触梯度下降这个概念的时候，是在学习机器学习算法的时候，很多训练算法用的就是梯度下降，然后资料和老师们也说朝着梯度的反方向变动，函数值下降最快，但是究其原因的时候，很多人都表达不清楚。所以我整理出自己的理解，从方向导数这个角度把这个结论证明出来，让我们知其然也知其所以然~

下面我一开始不提梯度的概念，完全根据自己的理解进行下文的梳理，一步一步推出梯度的来历：

导数

导数的几何意义可能很多人都比较熟悉: 当函数定义域和取值都在实数域中的时候，导数可以表示函数曲线上的切线斜率。除了切线的斜率，导数还表示函数在该点的变化率。

将上面的公式转化为下面图像为：

（来自维基百科）

直白的来说，导数代表了在自变量变化趋于无穷小的时候，函数值的变化与自变量变化的比值代表了导数，几何意义有该点的切线。物理意义有该时刻的（瞬时）变化率...

注意在一元函数中，只有一个自变量变动，也就是说只存在一个方向的变化率，这也就是为什么一元函数没有偏导数的原因。

偏导数

既然谈到偏导数，那就至少涉及到两个自变量，以两个自变量为例，z=f(x,y) . 从导数到偏导数，也就是从曲线来到了曲面. 曲线上的一点，其切线只有一条。但是曲面的一点，切线有无数条。

而我们所说的偏导数就是指的是多元函数沿坐标轴的变化率.

$f_{x} (x,y)$ 指的是函数在y方向不变，函数值沿着x轴方向的变化率

$f_{y} (x,y)$ 指的是函数在x方向不变，函数值沿着y轴方向的变化率

对应的图像形象表达如下：

最低0.47元/天解锁文章

关注

21
点赞
踩
82

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

17
原创

53
点赞

107
收藏

54
粉丝

关注

私信

热门文章

分类专栏

最新评论

浅析神经网络为什么能够无限逼近任意连续函数？
qq_40589619: 图呢？
[形象的解释神经网络激活函数的作用是什么？]
低阶搬运工: 感知机的激活函数是sign函数，sign也是非线性函数，可分界线居然还只能是直线分割边界，费解。而改用非线性函数sigmoid后边界线却变成了曲线，都是非线性函数，为何sign无法添加非线性因素。还有更好奇的是，如果激活函数是ReLU，那分类边界是直线？折线？？总不能是曲线吧
通俗理解神经网络BP传播算法
远叔学bug: 非常感谢。反向传播那里的图，C写漏了平方符号
[形象的解释神经网络激活函数的作用是什么？]
不吃茄子啦回复贝琪小飞: 也是小白一个，说错请指出（根本不知道对错），说说我的理解，加入隐藏层后，将输入的数值进行不同的运算，再进行组合，最终组合成模型，最后的式子不是x1和x2的直线，是关于x1和x2的一条训练出来的曲线。
[形象的解释神经网络激活函数的作用是什么？]
Raintin_coder: 我以前是使用高次多项式来你和曲线的，通过训练得到各个高次项系数，得到公式，将测试集带入到公式中，来确定模型准确率，但是，现在引入了激活函数以后，我就不知道该返回那些参数，该怎么把测试集合带入了。这块自己感觉是被绕进去了，不知道我的问题你能理解不。 https://blog.csdn.net/baixiaozhe/article/details/78121173 这边博客中，我就不明白为啥超过-20，20范围之后，曲线就无法和数据契合

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。