导数、微分与梯度的简单复习

最新推荐文章于 2022-10-10 21:28:49 发布

沃柑火龙果

最新推荐文章于 2022-10-10 21:28:49 发布

阅读量566

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/iteye_9057/article/details/106040222

版权

导数和微分是什么关系？
导数和微分的基本思想是什么？
梯度是什么？
梯度和导数的关系是什么？
梯度为什么是函数变化率最大的方向？

如果你已经对这些问题了如执掌，那请忽略本文。如果对这些问题的答案心中还模棱两可，那可能对于导数、微分以及梯度概念及本质还需要进一步理解，我们在这里做一个简单的复习。
下图是用来描述导数与微分的经典，可以对照理解：
在这里插入图片描述

导数（Derivative）

什么是导数？
导数描述函数在某一个点附近函数值对于自变量的变化率。
定义：当自变量x0产生一个增量 $\Delta x$ ,函数值的增量 $\Delta y$ 与自变量的增量 $\Delta x$ 的比值在 $\Delta x$ 趋近于0时的比值的极限存在，该极限即为函数在x0上的导数。
什么时候我们会使用导数？
1）求最大最小值，如机器学习中的最小化loss
2）描述变化趋势，如物理中运动的瞬时速度。
导数的本质就是用极限的方法对函数进行局部的线性逼近，如何理解？看下一部分——微分。

微分（Differentiation）

什么是微分？
微分是一个线性函数，是对函数局部变化率的一种线性描述，微分可以近似的描述当自变量取值有足够小的改变时函数值是怎样改变的。当自变量及其改变量确定时，微分就是一个具体的数值。
简单具体的说，函数在x0处的微分dy是函数的自变量x在x0附近有一个微小（x无限趋向于x0)的增量时，函数值增量的一个线性近似。
定义：
函数y=f(x)在x0的某个临域内有定义，且x0 + $\Delta x$ 在该临域内，对于函数增量
$\Delta y$ 存在 $\Delta y$ = A $\Delta x$ + o( $\Delta x$ )，其中 o(delta(x))是x趋向于x0时的高阶无穷小，则称f(x)在x0处可微，A * $\Delta x$ 称为函数在x0处的微分dy，dy为 $\Delta y$ 的线性主部。
通常把变量的增量 $\Delta x$ 称自变量的微分dx。
A为函数在x0处的导数，即dy= f’(x) * dx。

高阶无穷小——对于两个无穷小量 a和 b，如果lim（a/b）=0 ，就把 a叫做比b高阶的无穷小量。也就是a比b更快的趋向于0。

通过这个公式推导我们看到，这里的微分定义可以由导数的概念得出。当a $\Delta x$ 是 $\Delta x$ 的高阶无穷小时，这时候后边的部分可以忽略不计，函数在 $\Delta x$ 上的改变就可以通过导数乘以自变量的微分dx来近似。

梯度（Gradient）

偏导数
上边对于导数的描述都还是基于一元函数的，那对于多元函数，我们应该怎么样去描述多个自变量变化函数值是怎么样改变的呢？
我们可以一步一步来，一次只研究一个自变量的改变对于函数的改变，即先固定住其他变量，设其他变量是不变的，将多元函数的导数问题转化为一元函数的问题，由此得到函数在某个变量的偏导数。
以二元函数为例：
z=f(x,y) 在 (x0,y0)处对 x 的偏导数，即一元函数z=f(x,y0)在 x0处的导数，记为 $f_x(x_0, y_0)$ ;同样对于y的偏导数，记为 $f_y(x_0, y_0)$
方向导数
对于多元函数，在一个点上是有无数个方向的，我们想要描述任意方向上函数值的变化率，就需要引入方向导数。对于任意一个单位向量（sin $\alpha$ , sin $\beta$ ）上产生一个增量t，可以得到点 $x_0, y_0)$ 在这个方向上函数的变化率为（先不做证明）：
梯度
梯度是一个矢量，在梯度方向上函数的变化率最大，由各个方向上函数对应的偏导组成，是多元导数的一个概括。通过梯度可以找到函数变化最大的方向，快速找到最值，梯度下降是机器学习优化算法的基础。
那梯度为什么是函数变化率最大的方向？

只有当方向跟由偏导数组成的向量方向一致是，导数才是最大的，即变化率才是最大的。

总结

看完之后对最开始的问题应该有个简单的回答了吧，如果没有，我们可以再交流。
线性的变化是人容易理解的，运用极限的思想，“以曲代直”，用线性来描述非线性，解决了直线到曲线的问题。
将多元函数的导数问题转化为一元函数的问题，引入偏导数的概念。分解复杂问题为简单问题，通过解决简单问题来解决复杂问题。
由直线到曲线，由二维空间到多维空间，对问题本质抽象的过程，展现数学思想的魅力。