什么是梯度，梯度有什么用

宋田机器人之路

已于 2022-08-25 15:57:07 修改

阅读量2.2k

点赞数 1

分类专栏：算法文章标签：机器学习算法人工智能

于 2022-08-25 15:39:01 首次发布

本文链接：https://blog.csdn.net/weixin_41216002/article/details/126504472

版权

算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

什么是梯度？梯度有什么用？

写此篇博客主要是从原理上理解一下梯度是什么，加深自己的理解，以及将来方便复习
首先我们先回顾一下数量积（内积或点积）及方向向量的内容，因为后续梯度的理解及定义和这两个知识点密切相关。
点积： 设向量 $a\in R^n \quad b \in R^n$ ，则a和b的点积为， $a\cdot b=a^Tb=a_1b_1+a_2b_2+...+a_nb_n$

方向向量： 举一个二维向量的例子 $\in R2$
在这里插入图片描述
从图可以看出a的单位向量 $e=(cos\alpha,cos\beta)^T$ ，我们称e为a的方向向量。

下面我们举一个三维函数的例子，设在定义域D，连续可导函数 $f (x, y)$ ，令 $z = f (x, y)$ ，用图示如下：
在这里插入图片描述
已知一点P $(x_0,y_0)\in D$ ，取一个方向变化向量 $\Delta t=(\Delta x,\Delta y)$ ，假设 $\alpha$ 为 $\Delta t$ 和x轴的夹角，则 $\Delta x=cos\alpha \Delta t$ ， $\Delta x=cos\beta \Delta t$ 。
所以在P点的任意方向的函数微分（或导数） $\frac{dz}{dt}=\frac{f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)}{dt}$ ，根据定义分析
在这里插入图片描述
注：如果一个函数 $f (x)$ ,它的微积分的奥秘是，无限运动接近。其误差变化量其实就是误差项的运动速度大于 $\Delta x$ 的变化量，如果 $f(x)=x^2$ ,其导数定义运算：
$\lim_{\Delta x \to 0} \frac{x^2+2\Delta xx+\Delta x^2-x^2}{\Delta x}=2x+\Delta x$
其中为什么 $\Delta x$ 可以忽略掉，思考一下，以为2x是某点固定变化量，而 $\Delta x$ 是运动变化的，也就是说当 $dy=2x*\Delta x+\Delta x*\Delta x$ ,第一项的运动变化是随着 $\Delta x$ 以比例或者说是线性变化或者理解为相对不变，而第二项的值和 $\Delta x$ 是运动的，是随着 $De lt a x$ 变小而变得更小，随着 $\Delta x$ 变大而变大的速度更快。所以误差项记作 $o(\Delta x)$ 。

而偏导数的奥秘,举一个例子，二元函数 $f(x,y)=x^2y^2$ ，先计算x的偏导数，
$\lim_{\Delta x \to 0} 2xy^2+\Delta xy^2=2xy^2$
我们可以看到y项依然对影响着函数变化率，但相对于 $De lt a x$ 的运动项忽略掉。
同样对y求偏导数

$\lim_{\Delta y \to 0} 2yx^2+\Delta yx^2=2yx^2$
所以以上二元偏导数，是把运动量 $\Delta t$ 分解到x方向及y方向，任一方向的偏导数也有可能收当前点的其他方向影响，但是相对于 $De lt a x$ 的运动项忽略掉，记作 $o(\Delta t)$ 。

根据以上性质我们可以理解，当 $\Delta x$ ， $\Delta y$ 无限趋近于0时， $f(x+\Delta x,y+\Delta y)-f(x,y)=f_x^{'}(x,y)*\Delta x+f_y^{'}(x,y)*\Delta y+o(\Delta t)$ ，其中 $o(\Delta t)$ 是误差函数，

计算的时候可以忽略。然后求方向上的导数

$\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\Delta t}=\frac{f_x^{'}(x,y)*\Delta x+f_y^{'}(x,y)*\Delta y}{\Delta t}$ ，

又因为 $\frac{\Delta x}{\Delta t}=cos\alpha$ ， $\frac{\Delta y}{\Delta t}=cos\beta$ ，

所以在方向向量t上的导数 $f_t^{'}(x,y)=f_x^{'}(x,y)cos\alpha+f_y^{'}(x,y)cos\beta$

我们把方向导数做一个变形令向量 $m=(f_x^{'}(x,y),f_y^{'}(x,y))^T$ ,则 $t=(cos\alpha,cos\beta)^T$ ，我们发现此处的t就是方向向量t，然后我们把方向向量t的导数换个形式
$f_t^{'}(x,y)=f_x^{'}(x,y)cos\alpha+f_y^{'}(x,y)cos\beta=m\cdot t=|m||t|\cos\theta$
$\theta为m向量和t向量的夹角$ ，从上式中看出当 $cos\theta$ 值最大时，导数最大，也就是 $\theta=0$ 时最大，
t向量和m向量重合时导数最大。我们函数在某点处的m向量
$m=(f_x^{'}(x,y),f_y^{'}(x,y))^T$ 为此处的梯度。

梯度有什么用呢，我们应该经常听到一个名词，梯度下降。比如我们构建了一个误差函数，已知在某处，我们可以求出梯度，我们通过梯度找到推进的方向，依次迭代计算找到极值时就是我们找到的局部最小值。

以上例子用二元函数做例子，同样可以扩充到更高的次元。

宋田机器人之路

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
什么是梯度，梯度有什么用

写此篇博客主要是从原理上理解一下梯度是什么，加深自己的理解，以及将来方便复习首先我们先回顾一下数量积（内积或点积）及方向向量的内容，因为后续梯度的理解及定义和这两个知识点密切相关。设向量a∈Rnb∈Rna∈Rnb∈Rn，则a和b的点积为，a⋅b=aTb=a1b1+a2b2+...+anbna⋅b=aTb=a1b1+a2b2+...+anbn。
复制链接

扫一扫