吴恩达《机器学习》笔记——第十七章《大规模机器学习》

最新推荐文章于 2024-06-13 10:55:41 发布

肥胖边缘疯狂蹦迪

最新推荐文章于 2024-06-13 10:55:41 发布

阅读量312

点赞数

分类专栏：机器学习文章标签：大规模机器学习随机梯度下降 Mini-batch梯度下降在线学习 Map-reduce

本文链接：https://blog.csdn.net/qq_43572747/article/details/124911014

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

17、Large scale machine learning（大规模机器学习）

17.1 Learning with large datasets（学习大数据集）
17.2 Stochastic gradient descent（随机梯度下降）
17.3 Mini-batch gradient descent（Mini-batch梯度下降）
17.4 Stochastic gradient descent convergence（随机梯度下降收敛）
17.5 Online learning（在线学习）
17.6 Map-reduce and data parallelism（减少映射与数据并行）

17.1 Learning with large datasets（学习大数据集）

大规模机器学习就是处理大数据集的算法。当训练集过大的时候，由于求和，计算代价会非常高，所以，是否可以选择部分训练集进行训练。如下图所示：
在这里插入图片描述
在第二个坐标图像中，我们明显可以选择用1000个训练样本去训练。相反，第一个坐标图像中，应该选择多于1000个样本。

17.2 Stochastic gradient descent（随机梯度下降）

原先考虑所有训练样本的梯度下降算法，也被称为“批量梯度下降（Batch gradient descent）”。批量梯度下降和随机梯度下降的区别如下图所示：
在这里插入图片描述
随机梯度下降算法的流程如下图所示：

第一步，先随机打乱训练集。第二步，进行循环，最外层的外循环一般选择1-10次，如果样本很大，一次就可以。

17.3 Mini-batch gradient descent（Mini-batch梯度下降）

Mini-batch梯度下降是介于批量梯度下降和随机梯度下降之间的一种。三种梯度下降算法的区别如下所示：
在这里插入图片描述
Mini-batch 梯度下降算法的流程如下所示：

注：也要先随机打乱训练集。batch_size的大小一般在2-100，吴说他一般选10。

17.4 Stochastic gradient descent convergence（随机梯度下降收敛）

批量梯度下降和随机梯度下降判断是否收敛的方法：
在这里插入图片描述
对于学习率 $\alpha$ 的调整：有两种方法，一种是让 $\alpha$ 是常数；另一种是随着迭代次数减小 $\alpha$ （前多少步让 $\alpha=const_1$ ，后面让 $\alpha=const_2$ ）。

17.5 Online learning（在线学习）

问题背景：数据集是源源不断获得的，一直有新的数据集加入（可以立即为有无穷个）。方法：每次用一个新获得的样本去更新参数（权重），用完之后舍弃这个样本。以梯度下降的逻辑回归为例：
在这里插入图片描述

17.6 Map-reduce and data parallelism（减少映射与数据并行）

Map-reduce：把训练集分为多个子集，然后每个子集计算梯度，然后把这些子集加起来。例子如下：
在这里插入图片描述
疑问：tensorflow中的batch对应的是Mini-batch还是Map-reduce？

肥胖边缘疯狂蹦迪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达《机器学习》笔记——第十七章《大规模机器学习》

17、Large scale machine learning（大规模机器学习）17.1 Learning with large datasets（学习大数据集）17.2 Stochastic gradient descent（随机梯度下降）17.3 Mini-batch gradient descent（Mini-batch梯度下降）17.4 Stochastic gradient descent convergence（随机梯度下降收敛）17.5 Online learning（在线学习）17.6 Ma
复制链接

扫一扫

专栏目录