机器学习数学基础- gradient descent算法（下）

最新推荐文章于 2024-08-17 23:32:55 发布

upnow2014

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量1.3k

点赞数 1

分类专栏：分布式计算文章标签：机器学习梯度下降 gradient

本文链接：https://blog.csdn.net/upnow2014/article/details/46762349

版权

分布式计算专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Gradient Descent算法

续上文。
gradient descent的用途：

可以用于求解一个函数 $f(x_1,x_2,......x_n)$ 的local 最小值。

关于local最小值：

一个函数可能有多个local最小值，所谓local最小值是当给定（ $x_1,x_2,......x_n$ ）的某一个实例，如果在该实例的无限小的附近的任何一个实例的 $f$ 值都大于该实例的 $f$ 值，那么该实例所对应的就是 $f$ 的一个local最小值。

gradient descent算法求解local最小值的方法如下：

任意给定（ $x_1,x_2,......x_n$ ）的一个实例，简写为 $x^*$ ，那么将 $x^*$ 朝着 $\nabla f(x^*)$ （注：是一个n维向量）的反向方向移动一个足够小的值，得到 $x^*-r\nabla f(x^*)$ ，其中 $r$ 是一个足够小的数值，会使得 $f(x^*-r\nabla f(x^*))$ 的值比 $f(x^*)$ 一定会更小。通过这种方法不断的迭代计算新的 $x$ 的值，最终能得到local的最小值。

如果回想函数的gradient的定义，就能自然的理解gradient descent算法：

gradient反映的是因变量对自变量的变化的敏感性以及正负相关性，这里我们利用的是正负相关性，也就是说当 $\nabla f(x^*)$ 为正时，说明当 $x$ 从 $x^*$ 向负向移动一个足够小的值时， $f$ 的值会减小；并且，当 $\nabla f(x^*)$ 为负时，说明当 $x$ 从 $x^*$ 向正向移动一个足够小的值时， $f$ 的值会减小。因此，只要将 $x$ 从 $x^*$ 朝着 $\nabla f(x^*)$ 的反向方向移动一个足够小的值，就会导致 f <script type="math/tex" id="MathJax-Element-78">f</script>值减小。