【机器学习笔记】第15章：大规模机器学习

最新推荐文章于 2024-09-07 08:15:27 发布

Keveonnn

最新推荐文章于 2024-09-07 08:15:27 发布

阅读量176

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45474860/article/details/105048414

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章目录

第15章：大规模机器学习

第15章：大规模机器学习

15.1 随机梯度下降（Stochastic Gradient Descent）

已知梯度下降算法 $\theta_{j}:=\theta_{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$ ，当数据集 $m$ 很大时，每一次更新 $\theta$ 所需的时间很长，何况需多次迭代，耗费时间太长。所以对此进行优化，有以下几种优化方法：

Stochastic gradient descent
Mini-batch gradient descent
MapReduce

Stochastic gradient descent（随机梯度下降）的算法流程如下：在这里插入图片描述
算法先根据 $x^{(1)},y^{(1)})$ 对 $\theta$ 优化，然后根据 $x^{(2)},y^{(2)})$ 对 $\theta$ 优化，依次优化至 $x^{(m)},y^{(m)})$ ，与 Batch gradient descent 每次优化使用全部数据集不同。

注：算法不像Batch gradient descent每次优化都朝向梯度下降最大的地方移动，而是迂回的移动至一个接近全局最小值的值。
$\alpha=\frac{const1}{iterationNumber+const2}$ ，可使得学习率随时间的增加而减少，即每次移动的步长越来越小，尽可能接近最小值。

15.2 小批量梯度下降（Mini-batch Gradient Descent）

小批量梯度下降算法是介于批量梯度下降算法和随机梯度下降算法之间的算法，每计算 $b$ 个数据，便更新一次参数 $\theta$ 。

Batch gradient descent：每次优化时，使用 $m$ 个数据
Stochastic gradient descent：每次优化时，使用 $1$ 个数据
Mini-batch gradient descent：每次优化时，使用 $b$ 个数据（ $b$ 为 mini-batch size），一般取2-10

Mini-batch gradient descent 的算法表示为：
在这里插入图片描述

15.3 MapReduce

MapReduce 算法的思想是，将数据分布式计算，然后再汇总起来。

例如， $m = 400$ ， $\theta_{j}:=\theta_{j}-\alpha\frac{1}{400}\sum_{i=1}^{400}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$ ，有四台计算机，可将数据集划分为四份：

Machine 1： $(x^{(1)},y^{(1)}),...,(x^{(100)},y^{(100)})\rightarrow temp_{j}^{(1)}=\sum_{i=1}^{100}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$
Machine 2： $(x^{(101)},y^{(101)}),...,(x^{(200)},y^{(200)})\rightarrow temp_{j}^{(2)}=\sum_{i=101}^{200}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$
Machine 3： $(x^{(201)},y^{(201)}),...,(x^{(300)},y^{(300)})\rightarrow temp_{j}^{(3)}=\sum_{i=201}^{300}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$
Machine 4： $(x^{(301)},y^{(301)}),...,(x^{(400)},y^{(400)})\rightarrow temp_{j}^{(4)}=\sum_{i=301}^{400}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$