吴恩达机器学习笔记（十六）——大数据集处理

最新推荐文章于 2023-06-21 17:56:41 发布

George&Rita

最新推荐文章于 2023-06-21 17:56:41 发布

阅读量637

点赞数

分类专栏：吴恩达机器学习笔记文章标签：大数据吴恩达机器学习人工智能

本文链接：https://blog.csdn.net/weixin_41799019/article/details/118693266

版权

吴恩达机器学习笔记专栏收录该内容

26 篇文章 33 订阅

订阅专栏

1.学习大数据集

从某种意义上来说，大数据集确实可以使得模型效果变得更好，如下图所示:
在这里插入图片描述
但是，大数据集带来更大的计算问题，例如计算代价函数时的计算量会变得很大

同时，我们也知道大数据量对高方差的模型有效果，而对高偏差的模型效果不大。

2.随机梯度下降

在我们之间的学习中，我们进行梯度下降都是采用所有样本来计算，这就导致计算量很大。
在这里插入图片描述
这种方式的梯度下降较快，如下图

基于此，就提出了随机梯度下降的思想：每次只采用一个样本来更新梯度，这样就可以减少计算量，具体步骤如下图所示：

对于上图，我们需要注意的点有以下几个：

首先要记得对数据进行随机排序
虽然每次只采用一个样本去更新梯度，但是代价函数还是要计算所有样本的代价。
随机梯度下降的时候，下降的路径可能会很曲折，不断波动，但是总体趋势还是会不断减小。但是最后可能不一定能够收敛到全局最小值，但是也会收敛到近似最小值。
随机梯度下降一般对所有样本运行一次就可以了。但是当然还是要看具体的情况。

3.Mini-Batch 梯度下降

Mini-Batch梯度下降其实就是使用若干个样本来进行梯度的更新，如下图所示：
在这里插入图片描述
例如我们假设b=10，总共拥有1000个样本，使用Mini-Batch梯度下降

这种方式会比Batch梯度下降和随机梯度下降都要快一些。
但是缺点就是需要确定b的取值。

4.随机梯度下降收敛

那么我们要如何确定梯度下降已经收敛了呢？

对于较小的数据集运行Batch梯度下降来说，我们当然绘制所有样本的代价函数变化曲线。
在这里插入图片描述

而对于随机梯度下降来说，我们可以在更新梯度前计算当前样本代价函数值，然后每进行1000次迭代，绘制这1000个样本的代价函数变化。
在这里插入图片描述
正常情况下我们是会得到下列曲线。蓝色代表α更小，橙色代表α更大，α更小的下降比较慢，但是一般会收敛到更好的值：

而对于Mini-Batch梯度下降来说，下降的会比较快，并且b越大，一般曲线会越光滑，如下图所示：
在这里插入图片描述
如果出现下面这种情况，有可能是数据噪声太多，或者算法实现存在一些错误：

如果曲线出现上升，那么可能就是α太大了，这时需要调小α

此外，因为随机梯度下降会出现波动，因此我们也可以在梯度下降过程中，逐渐减小学习率α，使得最终能够收敛到更好地值。但是这种方法需要自己确定一个合理的数字：
在这里插入图片描述

5.在线学习

当我们拥有连续的数据流的时候，我们可以考虑使用在线学习，不断优化决策。
例如，一个物流网站，用户会登录进去查看我寄送这个包裹的价格，然后决定在这家物流网站寄送（y=1）或者不寄送（y=0）。因此，这个物流网站就可以采用用户源源不断的登录数据进行在线学习，利用用户的特征进行拟合，使得物流寄送包裹的价格随着不同用户的变化而变化，能够使价格达到用户能够接受的最大价格。具体如下图所示：
在这里插入图片描述

6.减少映射和数据并行

这一小节将会介绍MapReduce算法提高数据的计算效率。
例如我们在进行梯度更新的时候，需要更新所有参数，但是当数据量很大的时候，在一台计算机上计算的时间会很长。因此，我们就可以将任务分配到多个计算机上进行计算，最后使用一个服务器来进行汇总，这样就可以实现并行计算，大大提高计算效率。
在这里插入图片描述
MapReduce的原理图如下：