如何理解梯度下降法

最新推荐文章于 2024-08-17 23:32:55 发布

Evan-Nightly

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量9.4k

点赞数 18

分类专栏：机器学习文章标签：机器学习梯度下降法

本文链接：https://blog.csdn.net/neuf_soleil/article/details/82285497

版权

机器学习专栏收录该内容

17 篇文章 19 订阅

订阅专栏

前面的文章「机器学习入坑指南（三）：简单线性回归」中提到，梯度下降法是一种常用的迭代方法，其目的是让输入向量找到一个合适的迭代方向，使得输出值能达到局部最小值。在拟合线性回归方程时，我们把损失函数视为以参数向量为输入的函数，找到其梯度下降的方向并进行迭代，就能找到最优的参数值。

一、一元函数与导数

一元函数可以看成是平面上的函数。设一次函数形式为 $y = k x + b$ ，图像如下
在这里插入图片描述
可以看出，如果要通过迭代（取不同的 $x$ 值代入方程）的方式找出最小的 $y$ 值，我们实际上只有两个方向可以选择，即 $x$ 轴的正向或负向。于是，只要做出一次尝试，就知道该往哪个方向迭代。

在定义域有限的情况下，一次函数的局部最值就是全局最值。而对于多次函数来说，可能有多个局部最值，而三角函数则不用考虑定义域······

总而言之，不管平面上的函数是什么形式，为了找到其局部最值，我们都只用考虑向前向后两个方向。

实际上，我们可以求得函数在某一点处的导数，如果它是正的，则说明向前迭代会使函数值增大，反之则减小。导数的意义，及函数在某一点处的斜率。

二、二元函数与梯度

1 如何寻找正确的迭代方向？

对三维空间中的二元函数 $z = f (x, y)$ 来说，函数图像上点可以向其周围 360°的方向运动，而不是简单地向前、向后、向左、向右。进行迭代的自变量，也不再是一个一维的数字，而是二维的向量。

我们固然可以像上面那样，任意找出一个方向，只要使 $f (x, y)$ 的值是减小的就可以，但如果在无数个方向中只有极少的一部分能达到这个目的呢？任意蒙出来的几率有点低吧？就算蒙出来了， $f (x, y)$ 在这个方向上减小到头（收敛）了，你能证明往 360° 的任意一个方向再走不会再减小了吗？于是，你需要再次蒙出一个方向去迭代······

显然，蒙这种方式不靠谱，而且根本体现不出逼格来，我们得找到一个从数学上说的通的方法才行。

2 什么是梯度？

假设我们在山上想下山，观察了观察四周，发现咦有好几个向下的坡，左前方这个坡太缓了，下山得老半天，右前方这个还行，我从这儿走。对于一般人来说，坡度不能太陡，但科学嘛，是对生活的提炼与升华，所以数学上的这个人就像怪物猎人一样从多高的地方跳下去都死不了，于是他老是找最陡的坡走、滑行或者跳下去，最后，他很快地到了山下，当然，运气背的时候他会发现自己到了一个山谷。。。

所谓梯度，就是上面的故事中猎人找到的最陡的坡的陡峭程度。当然，它不仅有大小，还有方向，是一个向量。那么我们如何找到这个向量呢？

我们可以求得函数图像上的任意一点处的偏导数 $f_x(x,y)$ 和 $f_y(x,y)$ 。同时，在自变量组成的平面空间中，任意取一个单位向量：

$cos\theta i + sin\theta j$

其中 $\theta$ 是该向量与 $x$ 轴的夹角， $i$ 、 $j$ 分别是 $x$ 、 $y$ 方向上的单位向量。那么沿着 $u$ 方向变化 $t$ ，相当于沿着 $x$ 方向变化了 $tcos\theta $，同时沿着 $y$ 方向变化了 $tsin\theta$ 。

接下来，我们要求函数在这个向量方向上的变化率，称为方向导数，即

$\lim _{t \to 0}\frac{f(x_0 + tcos\theta, y_0 + tsin\theta) - f(x_0, y_0)}{t}$

根据全微分公式，

$\lim _{t \to 0}\frac{f_x(x_0,y_0)tcos\theta + f_y(x_0,y_0)tsin\theta}{t} = f_x(x_0,y_0)cos\theta + f_y(x_0,y_0)sin\theta$

设 $A =(f_x(x_0,y_0),f_y(x_0,y_0))$ ， $(cos\theta,sin\theta)$ ，则

$A\cdot I = |A||I|cos\alpha \leq|A||I|$

也就是说，当 $A$ 和 $I$ 共线时，方向导数能取到最大值，故而向量 $f_x(x_0,y_0),f_y(x_0,y_0))$ ，即 $(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})$ 就是我们要寻找的梯度，其方向代表函数某点处变化率最大的方向，大小（模）代表变化率的值。二元函数的梯度通常用 $\nabla f(x,y)$ 或 $g r a d f (x, y)$ 表示。