机器学习中大部分问题都是优化问题,而绝大部分优化问题都可以用梯度下降法来解决。本文详细的解释了高数中几个易混淆的重要概念,如导数和微分的区别,偏导数的概念,方向导数和梯度的关系,若完全掌握这几个概念,就能很好地理解梯度为什么是函数变化最快的方向。
本文脉络:
- 导数和微分
- 偏导数
- 方向导数和梯度的关系
- 总结
导数和微分
导数的定义
定义:设函数y = f(x)在
本质:导数描述的是函数在一点处的变化快慢的趋势,是一个变化的速率。如曲线方程的导数是随点变化的斜率,运动方程的导数是随时间变化的速率。
微分的定义
定义:函数y = f(x)在
本质:微分描述的是函数从一个点移动到另一个无穷小点所产生的变化量。
函数增量与微分的关系
本节从图形角度和代数角度去分析函数增量与微分的关系:
- 图形角度:
如上图所示,函数f(x)在M点处的导数为直线T的斜率
当
- 代数角度
若f(x)满足微分条件,则:
当
偏导数
偏导数是函数相对于某一轴方向的导数,其他轴方向则假设为常数,若考虑二元变量f(x,y),偏导数定义如下;
如果:
存在,则称该式为
偏导数的几何意义
令z = f(x,y),偏导数
如下图:
方向导数和梯度的关系
方向导数
我们还是以讨论偏导数的图来解释方向导数。令曲面方程z=f(x,y)投影到XY平面,得到投影平面,如下图:
M1为M0在XY面的投影点,由上图可知,有无数条直线经过M1点,这些直线代表方向,我们认为曲面M1点的方向导数就是求这些直线方向的导数,M1点的方向导数也是无穷多个,我们用变量
如上图,直线l的方向向量
所以
由上式可知,方向导数随夹角
由第一节介绍的单元变量的微分公式可推导二元变量的全微分公式
其中,
当
由方向导数的定义可知:
梯度
梯度是一个矢量,曲面上每点的梯度是常数,P0点的梯度如下;
其中
方向导数和梯度的关系
求上图曲面M0中P点的梯度和方向导数
梯度和方向导数的单位向量分别如下两图:
平移梯度向量,使之与方向导数的单位向量相交,夹角为
红色直线代表梯度,蓝色代表方向导数的单位向量,取该两个向量的內积,得:
由方向导数的表达式可知:
所以,
结论:曲面中点的方向导数有无数个,当方向导数与梯度方向一致时,该导数值取得最大,等价于该点在梯度方向具有最快的变化值。梯度方向是函数值增加最快的方向,梯度的反方向是函数值减小最快的方向。
总结
本文介绍了高数教材中几个易混淆的概念,结合图解法和公式推导法证明了方向导数和梯度方向一致时,函数值变化最快。因此,机器学习常用梯度法去解决最优化问题。