讲透机器学习中的梯度下降

最新推荐文章于 2024-08-15 17:21:12 发布

TechFlow

最新推荐文章于 2024-08-15 17:21:12 发布

阅读量433

点赞数

分类专栏：机器学习文章标签： python 机器学习算法梯度下降

本文链接：https://blog.csdn.net/TechFlow/article/details/104273231

版权

本文深入探讨了机器学习中的梯度下降法，从梯度的定义和解释出发，通过实例和代码实战解释了如何利用梯度下降进行模型优化。文章强调了梯度下降在深度学习中的核心地位，探讨了学习率的选择及其影响，并指出在某些情况下可能遇到的局部最优解问题。最后，展示了批量梯度下降的计算过程及其实现代码。

摘要由CSDN通过智能技术生成

本文始发于个人公众号：TechFlow，原创不易，求个关注

在之前的文章当中，我们一起推导了线性回归的公式，今天我们继续来学习上次没有结束的内容。

上次我们推导完了公式的时候，曾经说过由于有许多的问题，比如最主要的复杂度问题。随着样本和特征数量的增大，通过公式求解的时间会急剧增大，并且如果特征为空，还会出现公式无法计算的情况。所以和直接公式求解相比，实际当中更倾向于使用另外一种方法来代替，它就是今天这篇文章的主角——梯度下降法。

梯度下降法可以说是机器学习和深度学习当中最重要的方法，可以说是没有之一。尤其是在深度学习当中，几乎清一色所有的神经网络都是使用梯度下降法来训练的。那么，梯度下降法究竟是一种什么样的方法呢，让我们先从梯度的定义开始。

梯度的定义

我们先来看看维基百科当中的定义：梯度（gradient）是一种关于多元导数的概括。平常的一元（单变量）函数的导数是标量值函数，而多元函数的梯度是向量值函数。多元可微函数 $f$ 在点 $P$ 上的梯度，是以 $f$ 在 $P$ 上的偏导数为分量的向量。

这句话很精炼，但是不一定容易理解，我们一点一点来看。我们之前高中学过导数，但是高中时候计算的求导往往针对的是一元函数。也就是说只有一个变量x，求导的结果是一个具体的值，它是一个标量。而多元函数在某个点求导的结果是一个向量，n元函数的求导的结果分量就是n，导数的每个分量是对应的变量在该点的偏导数。这个偏导数组成的向量，就是这个函数在该点的梯度。

那么，根据上面的定义，我们可以明确两点，首先梯度是一个向量，它既有方向，也有大小。

梯度的解释

维基百科当中还列举了两个关于梯度的例子，帮助我们更好的理解。

第一个例子是最经典的山坡模型，假设我们当下站在一个凹凸不平的山坡上，我们想要以最快的速度下山，那么我们应该该从什么方向出发呢？很简单，我们应该计算一下脚下点的梯度，梯度的方向告诉我们下山最快的方向，梯度的大小代表这点的坡度。

第二个例子是房间温度模型，假设我们对房间建立坐标系，那么房间里的每一个点都可以表示成 $(x,y,z)$ ，该点的温度是 $\phi(x,y,z)$ 。如果假设房间的温度不随时间变化，那么房间里每个点的梯度表示温度变热最快的方向，梯度的大小代表温度变化的速率。

通过这两个例子，应该很容易理解梯度的方向和大小这两个概念。

举例

假设f是一个定义在三维空间里的函数，那么，f在某一点的梯度，可以写成：

$\nabla f=(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \frac{\partial f}{\partial z})=\frac{\partial f}{\partial x}i+\frac{\partial f}{\partial y}j + \frac{\partial f}{\partial z}k$