斯坦福大学机器学习笔记(3)--梯度下降及学习速度

最新推荐文章于 2022-11-20 15:57:40 发布

softee

最新推荐文章于 2022-11-20 15:57:40 发布

阅读量1.7k

点赞数

分类专栏：心得文章标签：机器学习梯度下降学习速度

本文链接：https://blog.csdn.net/softee/article/details/51499082

版权

心得专栏收录该内容

28 篇文章 1 订阅

订阅专栏

线性回归中的梯度下降

线性回归函数的形式如下：
$h_{\theta}=\theta_0+\theta_1x_1+\theta_2x_2$ 。
代价函数用方差来表示，被定义为：
$J(\theta)=\frac{1}{2m}\Sigma_{i=1}^{m}(\theta^Tx^{(i)}-y^{(i)})^2$ 。
式子中的 $\theta, x^{(i)}$ 都是向量， $T$ 表示向量的转置。 $m$ 是样本中元素的个数。 $y$ 代表样本中给出的期望输出。
不失一般性的情况下，代价函数 $J(\theta)$ 对向量 $\theta$ 中的第 $j$ 个元素求偏导，可以得到如下式子：
$\frac{\partial}{\partial\theta_j}J(\theta)=\frac{1}{m}\Sigma_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
在梯度下降算法中，同时更新向量 $\theta$ 中的每个元素 $\theta_j$ 。

学习速度

在梯度下降中，更新向量参数 $\theta$ 的公式如下：
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ 。
式子中的\alpha就是学习速度，学习速度的值的大小，影响着机器学习模型的收敛与否以及收敛速度。