斯坦福大学机器学习笔记(2)

最新推荐文章于 2021-07-28 22:58:57 发布

softee

最新推荐文章于 2021-07-28 22:58:57 发布

阅读量819

点赞数

分类专栏：心得文章标签：机器学习梯度下降最小值迭代

本文链接：https://blog.csdn.net/softee/article/details/51474426

版权

心得专栏收录该内容

28 篇文章 1 订阅

订阅专栏

梯度下降(gradient descent)

梯度下降利用迭代的方法，更新 $\theta$ 参数，以提高回归问题中拟合的准确性。其步骤如下。

以某个初值来初始化 $\theta$ ，例如 $\theta=(0.1, 0.2, 0.3)^T$
使用 $J(\theta)$ 来表示代价函数，不断更新其中 $\theta$ 的值来最小化 $J(\theta)$ ，对于 $\theta$ 中的每个向量元素 $\theta_j$ ，更新式子为： $\theta_j:=\theta_j-\alpha(\partial/\partial\theta_j)J(\theta)$ 。利用这个式子，同时更新每个 $\theta_j, 0\le j \le n$ 。

假设 $J(\theta)$ 是一个只有一个变量的函数，则下图展示了它的曲线以及 $\theta$ 的对应变化。
梯度下降示意图
从图中可以看出，由于曲线的斜率在从 $\theta_0$ 到 $\theta_1...$ 的过程中在不断变小，所以 $\theta$ 的下降幅度也在变小，最终会到达曲线的最低点，也就是 $J(\theta)$ 的最小值处。