机器学习：梯度下降算法

最新推荐文章于 2022-12-19 15:26:31 发布

Webbley

最新推荐文章于 2022-12-19 15:26:31 发布

阅读量482

点赞数

分类专栏： Machine Learning 文章标签：梯度下降机器学习

本文链接：https://blog.csdn.net/liweibin1994/article/details/75268076

版权

Machine Learning 专栏收录该内容

13 篇文章 15 订阅

订阅专栏

假如我们有一个数据集： $(x_{1}^{i},x_{2}^{i},y^{i})$
其中，i是从1到m。数据集总共有m组。

前两个是自变量，最后一个是因变量。我们可以这样理解，存在某种关系，使得y会随着x1和x2的变化而变化。这种理解跟函数是不是很像？实际上，我们确实可以假设存在这样一个函数，它跟数据集很拟合。所以即使数据集里没有的它也可以预测出结果。现在假设有一个线性的函数可以拟合：

h θ (x (i)) = θ 0 + θ 1 x (i) 1 + θ 2 x (i) 2

$h_{\theta}(x^{(i)})=\theta_0+\theta_{1}x_{1}^{(i)}+\theta_{2}x_{2}^{(i)}$
我们希望能得到一组

θ $\theta$ ，使得

hθ(x(i)) $h_{\theta}(x^{(i)})$ 所表示的函数图像跟数据集拟合得很好。那么，如何刻画它们的拟合程度呢？

最直接的想法就是利用h(x)与y之间的差异来衡量，即定义一个代价(cost)函数：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 2 m \sum i = 1 m (θ 0 + θ 1 x (i) 1 + θ 2 x (i) 2 - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^{2}=\frac{1}{2m}\sum_{i=1}^{m}(\theta_0+\theta_1x_{1}^{(i)}+\theta_{2}x_{2}^{(i)}-y^{(i)})^{2}$

而我们的目标就是，想办法在这个已知的数据集下，得到一组 $\theta$ ，使得 $J(\theta)$ 的值最小。如果把 $J(\theta)$ 和 $\theta$ 在坐标轴上画出来，它就是一个曲面，要找它的最小值，我们当然会想到最低点，要找到最低点，就是对 $\theta$ 求导，并且让导数为0，这样就找到最低点了。即令：

\partial \partial θ j J (θ) = \partial \partial θ j \cdot 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 m \cdot \sum i = 1 m [(h θ (x (i)) - y (i)) \cdot x (i) j] = 0

$\frac{\partial}{\partial\theta_{j}}J(\theta)=\frac{\partial}{\partial\theta_{j}}\cdot \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^{2}=\frac{1}{m}\cdot\sum_{i=1}^{m}\left [ (h_\theta(x^{(i)})-y^{(i)})\cdot x_{j}^{(i)} \right ]=0$

这样我们就可以找出最低点了。

梯度下降算法

在计算机的计算中，我们如何才能找到 $\theta_0$ 和 $\theta_1$ 使得 $J(\theta)$ 最小呢？
1 先随便给 $\theta_0$ 和 $\theta_1$ 初始化。比如都赋值为0。
2 改变 $\theta_0$ 和 $\theta_1$ ，使得 $J(\theta)$ 的值慢慢变小，最终收敛到最小。这时候 $\theta_0$ 和 $\theta_1$ 的值就是我们要的。
伪代码如下：
while()
{
temp0= $\theta_0$ - $\alpha\frac{\partial }{\partial \theta_0}J(\theta_0,\theta_1)$
temp1= $\theta_1$ - $\alpha\frac{\partial }{\partial \theta_1}J(\theta_0,\theta_1)$
$\theta_0$ =temp0
$\theta_1$ =temp1
}
由于每一次的 $\theta_0$ 和 $\theta_1$ 都是一个具体的数值，所以 $\alpha\frac{\partial }{\partial \theta_0}J(\theta_0,\theta_1)$ 每一次都可以算出来的。

梯度下降算法的细节改进

特征缩放(Feature Scaling)

比如有数据集 $(x_{1}^{(i)},x_{2}^{(i)},y^{(i)})$
其中有两个变量，x1和x2，假如x1的变化范围大概是0~2000，而x2的变换范围大概是1~5。显然x1和x2的取值范围差距很大，在画代价（cost）函数的时候图像会很奇怪，利用梯度下降算法找最小值的时候，下降的速度就会很慢，而且容易振荡。为了解决这个问题，可以使用归一化。即：

x' 1 = x 1 - 1000 2000 x' 2 = x 2 - 2 5

$x_1^{'} = \frac{x_1-1000}{2000} \quad x_2^{'} = \frac{x_2-2}{5}$

学习速率α的选择

α太小，收敛速度就会变慢，太大又有可能不会收敛。只能慢慢尝试了。

Webbley

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习：梯度下降算法

假如我们有一个数据集： (xi1,xi2,yi)(x_{1}^{i},x_{2}^{i},y^{i}) 其中，i是从1到m。数据集总共有m组。前两个是自变量，最后一个是因变量。我们可以这样理解，存在某种关系，使得y会随着x1和x2的变化而变化。这种理解跟函数是不是很像？实际上，我们确实可以假设存在这样一个函数，它跟数据集很拟合。所以即使数据集里没有的它也可以预测出结果。现在假设有一个线性的
复制链接

扫一扫