关于梯度和雅可比矩阵

最新推荐文章于 2024-04-23 10:27:12 发布

_._-

最新推荐文章于 2024-04-23 10:27:12 发布

阅读量4.7k

点赞数 5

文章标签：算法机器学习

原文链接：http://blog.leanote.com/post/lincent/%E5%85%B3%E4%BA%8E%E6%A2%AF%E5%BA%A6%E5%92%8C%E9%9B%85%E5%8F%AF%E6%AF%94%E7%9F%A9%E9%98%B5

版权

转载自：博客
该博客已过期，为了方便以后查看，转载如下，侵删

看到一个简洁漂亮的推导，从可微性的概念出发引入了梯度和雅可比矩阵，简记如下。
微积分的基本理念是利用仿射函数对函数进行近似，仿射函数的定义如下：
如果存在线性函数 $L:R^n→R^m$ 和向量 $\in R^m$ 使得对于任意 $x∈R^n$ 都有 $A (x) = L (x) + y $ 则称函数 $A$ 为一个仿射函数。（注：不难看出，仿射函数实质上是线性变换加上平移。）
如果给定了函数 $f:R^n→R^m$ 和点 $x_0∈R^n$ ，我们希望找到一个仿射函数 $A$ ，使其在点 $x_0$ 附近能够近似函数 $f$ ，那么显然有 $A(x_0)=f(x_0)$
可得
$y=f(x_0)-L(x_0)$
再利用线性函数的性质可得
$A(x)=L(x-x_0)+f(x_0)$
接下来，相对于 $x$ 接近于 $x_0$ 的速度，要求 $A (x)$ 接近 $f (x)$ 的速度更快，以保证 $A$ 在点 $x_0$ 附近实现对fff的近似，即保证在某个给定点上的近似误差是相对于该点与 $x_0$ 之间距离的一个“无穷小量”，以下给出导数的定义：
给定函数 $f:\Omega\rightarrow R^m，\Omega\subset R^n$ ，如果存在一个仿射函数能够在点 $x_0$ 附近近似函数 $f$ ，那么就称函数 $f$ 在点 $x_0\in\Omega$ 处可微，即存在线性函数 $L:R^n\rightarrow R^m$ 使得
$\lim_{x\rightarrow x_0,x\in\Omega} \frac{\parallel f(x)-(L(x-x_0)+f(x_0))\parallel}{\parallel x-x_0\parallel } =0$
则 $L$ 称为 $f$ 在点 $x_0$ 的导数，如果函数 $f$ 在定义域 $\Omega$ 上处处可微，那么称 $f$ 在 $\Omega$ 上是可微的。
以前也提过，矩阵的本质是对变换的描述，那么如何确定可微函数 $f$ 的导数 $L$ 对应的矩阵 $M$ 呢？引入 $R^n$ 空间的标准基 $\left|e_1,e_2,...,e_n \right|$ ，考虑在某个方向上有微小变化的向量 $x_j=x_0+te_j, j=1,...,n$ ，根据导数的定义有：
$\lim_{t\rightarrow 0} \frac{ f(x_j)-(tMe_j+f(x_0))}{t} =0$
这意味着，对于 $j = 1, . . ., n$ ，有：
$\lim_{t\rightarrow 0} \frac{ f(x_j)-f(x_0)}{t} =Me_j$
由矩阵乘法的性质可知， $Me_j$ 是矩阵 $M$ 的第 $j$ 列，向量 $x_j$ 与 $x_0$ 仅在第 $j$ 个元素存在差异，上式的左边等于偏导数 $\frac{\partial f}{\partial x_j}(x_0)$ 。因此，如果
$f(x)=\left[ \begin{matrix} f_1(x)\\ ...\\ f_m(x) \end{matrix} \right]$
那么有
$\frac{\partial f}{\partial x_j}(x_0)=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_j}(x_0)\\ ...\\ \frac{\partial f_m}{\partial x_j}(x_0) \end{matrix} \right]$
注意这只是对一个分量的偏导，完整的矩阵 $M$ 为
$[\frac{\partial f}{\partial x_1}(x_0),...,\frac{\partial f}{\partial x_n}(x_0)]=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_1}(x_0),...,\frac{\partial f_1}{\partial x_n}(x_0)\\ ...\\ \frac{\partial f_m}{\partial x_1}(x_0),...,\frac{\partial f_m}{\partial x_n}(x_0) \end{matrix} \right]$
矩阵 $M$ 称为 $f$ 在点 $x_0$ 的雅可比矩阵或导数矩阵，记为 $Df(x_0)$
考虑 $m = 1$ 的情形，如果函数 $f:R^n→R$ 可微，那么矩阵简化为一个行向量
$\left[ \begin{matrix} \frac{\partial f}{\partial x_1}(x)\\ ...\\ \frac{\partial f}{\partial x_n}(x) \end{matrix} \right] ^T$
将其再转置一下，就得到我们熟悉的梯度公式了：
$\nabla f(x) =Df(x)^T= \left[ \begin{matrix} \frac{\partial f}{\partial x_1}(x)\\ ...\\ \frac{\partial f}{\partial x_n}(x) \end{matrix} \right]$
可以看出，梯度是一个由 $R^n$ 映射到 $R^n$ 的函数，如果在点 $x_0$ 绘制梯度向量，其起点为点 $x_0$ ，箭头代表方向，也就是说梯度能表示为向量场，类似于下图。
[外链图片转存中...(img-oRHyivX9-1604393458459)]

可以证明梯度方向是函数 $f$ 在点 $x_0$ 处增加最快的方向，反之，负梯度方向是函数值减少最快的方向，这也就是最小化loss的梯度下降法的理论基础。

_._-

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
关于梯度和雅可比矩阵

转载自：博客该博客已过期，为了方便以后查看，转载如下，侵删看到一个简洁漂亮的推导，从可微性的概念出发引入了梯度和雅可比矩阵，简记如下。微积分的基本理念是利用仿射函数对函数进行近似，仿射函数的定义如下：如果存在线性函数L:Rn→RmL:R^n→R^mL:Rn→Rm和向量y∈Rmy \in R^my∈Rm使得对于任意x∈Rnx∈R^nx∈Rn都有A(x)=L(x)+yA(x)=L(x)+yA(x)=L(x)+y则称函数AAA为一个仿射函数。（注：不难看出，仿射函数实质上是线性变换加上平移。）如果
复制链接

扫一扫