【吴恩达】机器学习第18章大规模机器学习

最新推荐文章于 2022-08-09 15:48:22 发布

D.Guan

最新推荐文章于 2022-08-09 15:48:22 发布

阅读量286

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BRAVE_NO1/article/details/82941628

版权

机器学习专栏收录该内容

39 篇文章 0 订阅

订阅专栏

对于大规模数据的机器学习，有两种处理办法：一是随机梯度下降，二是减少映射（MapReduce)。

1.随机梯度下降

1.1随机梯度下降针对每个样本，更新一次参数 $\theta$ 。基本步骤是先随机打乱样本数据，然后再从头开始，一个样本一个样本训练参数。

1.2批量梯度下降：是对所有样本进行一次遍历，然后再更新一次参数 $\theta$ 。每次更新参数，都需要读入所有的数据，开销比较大。

1.3Mini-batch梯度下降：选取b个样本，进行运算，更新一次参数 $\theta$ 。每b个数据更新一次，不用遍历所有数据。并且可以的话，可以通过向量化来实现并行运算，加快速度。效果不错。但是需要确定参数b,会有时间开销。b一般在2~100之间。

2.随机梯度下降的收敛问题：

一般情况下，我们会绘制训练集上的代价函数 $J_{train}$ ，看他是不是一直下降的。在随机下降的方法里，我们会对每个 $\left ( x^{(i)},y^{(i)} \right )$ 进行计算cost函数，然后每1000g个cost函数我们进行一个平均值计算，然后绘制一个cost平均值-迭代次数的曲线，如果是下降的，则是好的。如果是反复抖动或者上升的，我们需要调整我们的学习速率 $\alpha$ （变小）或者修改特征。

一般情况下， $\alpha$ 为常数。但是我们也可以定义一个 $\alpha$ =常数1/（常数2+迭代次数）.如此一来，随着迭代次数的增加， $\alpha$ 会逐渐缩小。但是确定常数1、2需要耗费时间。

3.MapReduce

MapReduce的思想就是通过并行的办法提高效率。比如，把一个训练集分成可以并行运算的几部分，分别运算之后再整合。只要运算可以写成一系列求和的形式，就可以使用MapReduce提升效率。

3.在线学习

在线学习不存储数据集，使用过一个数据样本之后就会直接丢掉，因为他有连续的数据流。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达】机器学习第18章大规模机器学习

对于大规模数据的机器学习，有两种处理办法：一是随机梯度下降，二是减少映射（MapReduce)。1.随机梯度下降1.1随机梯度下降针对每个样本，更新一次参数。基本步骤是先随机打乱样本数据，然后再从头开始，一个样本一个样本训练参数。1.2批量梯度下降：是对所有样本进行一次遍历，然后再更新一次参数。每次更新参数，都需要读入所有的数据，开销比较大。1.3Mini-batch梯度下降：选取...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。