为什么说梯度的反方向是函数下降最快的方向

最新推荐文章于 2022-12-15 17:32:17 发布

minjialong

最新推荐文章于 2022-12-15 17:32:17 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习文章标签：梯度下降

本文链接：https://blog.csdn.net/minjialong/article/details/90175043

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

梯度在机器学习和深度学习中是一个高频词汇，弄懂梯度的概念对梯度下降，反向传播的理解有很大帮助。这里我根据个人理解，对梯度的反方向是函数下降最快的方向这一观点进行解释。限于作者水平，难免有错误之处，欢迎批评指正。

导数

说到梯度，就不可避免的要谈导数。对于单变量函数 $f (x)$ 在点 $x_0$ 处连续，则函数 $f (x)$ 在点 $x_0$ 处的导数为：
$\begin{aligned} f^{'}(x_0) &=\lim_{\Delta x->0}\frac{\Delta y}{\Delta x}\\ &=\lim_{\Delta x->0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x} \end{aligned}$

图片来源：维基百科

偏导

对于多个自变量的函数，就需要求偏导数。这里用两个自变量的函数为例，多个自变量的函数类似。
假设函数 $f (x, y)$ 在点 $x_0, y_0)$ 处连续，则函数 $f (x, y)$ 在点 $x_0, y_0)$ 处的偏导为：
$\begin{aligned} & f_{x}(x_0, y_0) = \lim_{\Delta x->0} \frac {f(x_0+\Delta x, y_0)-f(x_0, y_0)} {\Delta x} \\ & f_{y}(x_0, y_0) = \lim_{\Delta y->0} \frac {f(x_0, y_0+\Delta y) - f(x_0, y_0)} {\Delta y} \end{aligned}$
函数 $f (x, y)$ 在点 $x_0, y_0)$ 处的偏导可以记作： $\nabla f(x_0, y_0) = f_x(x_0, y_0) + f_y(x_0, y_0)$ 。

梯度

由于偏导不能直接表示方向，所以这里选用单位方向向量 $u=\cos\theta i+\sin\theta j$ ，其中 $\theta$ 为单位向量与 $x$ 轴的夹角，此时带有方向的偏导可以表示为：
$D(x_0, y_0)= f_x(x_0, y_0)\cos\theta + f_y(x_0, y_0)\sin\theta$ 此时，就可以表示任意方向的偏导了。
这里对该表达式 $D$ 做一下变换： $A=(f_x(x_0, y_0), f_y(x_0, y_0))$ ， $I=(\cos\theta, \sin\theta)$ ，则表达式 $D$ 的模为： $|D|=|A|\cdot|I|\cos\alpha$ ，其中 $\alpha$ 为向量 $A$ 与向量 $I$ 的夹角。
这里我们可以很明显的看到，当 $A$ 与 $I$ 的方向相同时表达式 $D$ 的模最大，同理，当方向相反时，梯度最小，也就是梯度的反方向是函数下降最快的方向。

minjialong

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
为什么说梯度的反方向是函数下降最快的方向

    梯度在机器学习和深度学习中是一个高频词汇，弄懂梯度的概念对梯度下降，反向传播的理解有很大帮助。这里我根据个人理解，对梯度的反方向是函数下降最快的方向这一观点进行解释。限于作者水平，难免有错误之处，欢迎批评指正。...
复制链接

扫一扫