【Machine Learning, Coursera】机器学习Week10 大规模机器学习笔记

最新推荐文章于 2022-02-24 17:07:16 发布

Aki-Z

最新推荐文章于 2022-02-24 17:07:16 发布

阅读量308

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42395916/article/details/85054490

版权

23 篇文章 1 订阅

订阅专栏

ML: Large Scale Machine Learning

本节内容：适用于大规模数据的梯度下降方法及如何确保算法收敛

机器学习概念：
批量梯度下降(Batch Gradient Descent)
随机梯度下降(Stochastic Gradient Descent)
小批量梯度下降(Mini-batch Gradient Descent)

以线性回归为例：

批量梯度下降(Batch Gradient Descent)
每次更新都用到所有样本
$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
Repeat {
$\theta_j := \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
$\qquad\qquad\qquad\qquad\qquad\qquad$ (for every $j = 0, . . ., n$ )
}
随机梯度下降(Stochastic Gradient Descent)
每次更新只使用一个样本
优点：快。适用于大样本。
缺点：精度不如前者高。
$cost(\theta,(x^{(i)},y^{(i)})) =\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$
$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
Step 1: 打乱样本
Step 2:
Repeat {
$\qquad$ for $i = 1, . . ., m$ {
$\theta_j := \theta_j - \alpha(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
$\qquad\qquad\qquad\qquad\qquad\qquad$ (for every $j = 1, . . ., n$ )
$\qquad$ }
}
小批量梯度下降(Mini-batch Gradient Descent)
每次更新使用b个样本
优点：有好的向量化方法时比随机梯度下降更快。
$\quad$
例：
b = 10, m = 1000
Repeat {
$\qquad$ for $i = 1, 11, 21, . . . ., 991$ {
$\theta_j := \theta_j - \alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^{(k)})-y^{(k)})x_j^{(k)}$
$\qquad\qquad\qquad\qquad\qquad\qquad$ (for every $j = 1, . . ., n$ )
$\qquad$ }
}

批量梯度下降
$J_{train}(\theta)$ 对迭代次数作图
$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
随机梯度下降
Step 1: 每次更新前计算样本 $x^{(i)},y^{(i)})$ 对应的cost
$cost(\theta,(x^{(i)},y^{(i)})) =\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$
Step 2: 每隔一定的迭代次数（如1000次），对这1000次的 $cost(\theta,(x^{(i)},y^{(i)}))$ 求平均
Step 3: $cost(\theta,(x^{(i)},y^{(i)}))$ 对迭代次数作图

可能会得到以下几种图像：
左上子图：该学习速率可以使算法收敛。使用的学习速率越小，收敛的速度越慢，但精度越高
右上子图：每5000次迭代求一次平均，得到的曲线更平滑
左下子图：可能是算法效果不佳，也可能是迭代间隔太小。5000次迭代求一次平均可能可以看出趋势
右下子图：算法发散，选用更小的学习速率