梯度下降法的推导（非常详细、易懂的推导）

最新推荐文章于 2024-08-15 17:21:12 发布

/home/liupc

最新推荐文章于 2024-08-15 17:21:12 发布

阅读量8.3w

点赞数 131

分类专栏： 9 数学

9 数学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原作者: 红色石头 | 来自: AI有道

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

下山问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在当前位置的导数。

其中，θo是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步（步进长度），θ是更新后的θo，即下山移动一小步之后的位置。

一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，一阶泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

不懂上面的公式？没有关系。我用下面这张图来解释。

凸函数f(θ)的某一小段[θo,θ]由上图黑色曲线表示，可以利用线性近似的思想求出f(θ)的值，如上图红色直线。该直线的斜率等于f(θ)在θo处的导数。则根据直线方程，很容易得到f(θ)的近似表达式为：

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

想要两个向量的乘积小于零，我们先来看一下两个向量乘积包含哪几种情况：

A和B均为向量，α为两个向量之间的夹角。A和B的乘积为：

总结

我们通过一阶泰勒展开式，利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法，但也许对它的推导过程并不清楚。看了本文，你是否有所收获呢？

关注

131
点赞
踩
487

收藏

觉得还不错? 一键收藏
27
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 27

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。