机器学习数学基础- gradient descent算法（上）

最新推荐文章于 2024-08-17 23:32:55 发布

upnow2014

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量3.7k

点赞数 1

分类专栏：分布式计算文章标签：线性回归机器学习梯度下降

本文链接：https://blog.csdn.net/upnow2014/article/details/46757321

版权

分布式计算专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文探讨了为何掌握数学基础知识对于理解和应用机器学习至关重要，特别是在大数据分布式计算场景中。文章深入介绍了梯度（Gradient）、偏导数（Partial Derivative）和导数（Derivative）的概念，并阐述了它们在机器学习中的作用，尤其是如何应用于Gradient Descent算法来解决线性回归问题中的最优化问题。

摘要由CSDN通过智能技术生成

为什么要了解点数学基础

学习大数据分布式计算时多少会涉及到机器学习的算法，所以理解一些机器学习基础，有助于理解大数据分布式计算系统（例如spark）的设计。机器学习中一个常见的就是gradient descent算法，是线性回归问题的一个基础算法。gradient是数学概念。

Gradient

假设一个函数有n个自变量： $f(x_1,x_2......x_n)$ ，且每个x都是标量值，那么该函数的gradient就是一个n维的向量函数，每个component是f函数针对 $x_i$ 的partial derivative， $f$ 的gradient反映的是 $f$ 针对所有变量在各自维度的变化的敏感程度（以及正负相关性，即当自变量增加时， $f$ 值是增加还是减小，下同。gradient所反映的正负相关性非常重要，是理解gradient descent算法的一个关键）的合集。 $f$ 的gradient记为 $\nabla f$

Partial Derivative

partial derivative是derivative的一个延伸概念，是一个有n维变量的函数 $f(x_1,x_2......x_n)$ ，在假设其他变量值不变、仅有一个变量（假设为 $x_i$ ）变化的情况下，f函数针对该变量的derivative，写为 $f'(x_i)$ ，或者 $\frac{\partial f}{\partial x_i}$ ， $f(x_1,x_2......x_n)$ 对 $x_i$ 的partial derivative也是 $x_i$ 的函数，它反映的是 $f$ 相对于 $x_i$ 的变化的敏感程度（以及正负相关性）。

Derivative

一个一维变量的函数 $f(x)$ 的derivative，反映的是 $f(x)$ 在 $x$ 的不同值的情况下，当 $x$ 仅作无限小的变化时， $f$ 值的变化与 $x$ 的变化的比值，因此derivative反映的是 $f(x)$ 在 $x$ 的不同值的情况下， $f(x)$ 对 $x$ 的变化的敏感程度（以及正负相关性）。 $f(x)$ 的derivative也是 $x$ 的函数，写为 $f'(x)$ .

Gradient Descent算法

线性回归问题可以归结为求一个函数 $f(x_1,x_2......x_n)$ 的 $(x_1,x_2......x_n)$ 的某一个具体的值，使得 f <script type="math/tex" id="MathJax-Element-32">f</script>有最小值。
如果把这个求解问题交给你，你能求出来吗？很难把，
而gradient descent算法则能解决这个问题。
……待续