关于梯度下降法不做解释,网上有很多讲解。
这里只讨论梯度下降法和梯度之间的关系,先让我们了解一下导数、偏导数、方向导数、和梯度的概念。
导数:定义就不讲了,含义:一元函数在某一点的导数描述了这个函数在这一点附近的变化率。几何意义:一元函数曲线在这一点的斜率。
偏导数:针对多元函数而言,一个多元函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(沿某一坐标轴方向的导数)。
方向导数:每一个变量的偏导数乘以方向余弦(在解析几何里,一个向量的三个方向余弦分别是这向量与三个坐标轴之间的角度的余弦。)的和。
梯度:表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
好的,看完了这些定义,我们发现梯度是定义在方向导数的基础上的,而梯度下降法只求了偏导。刚开始这还真的有点困扰我。其实问题的关键在于梯度下降法是对损失函数求梯度,这些损失函数都是一元函数。而对于一元函数而言,梯度、导数、偏导数、方向导数是统一的。