coursera 机器学习---大规模机器学习

one_two12

于 2019-10-26 21:51:10 发布

阅读量223

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/one_two12/article/details/102758814

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Gradient descent with large data sets （大数据集的梯度下降）

视频地址

现在的机器学习和以前比要方便很多现在拥有了大数据拥有了可以用来进行学习的数据机器学习领域有一个说法是通常不是最好的算法胜出而是谁有最多的数据

那么当我们用了大量的数据又该如何使用呢

在我们计算一个损失函数的时候通常会使用梯度下降算法来求出theta 的最小值代价最小当有大量的数据的时候发现梯度下降每次迭代都要计算训练集的误差的平方和一般训练集都非常大此时计算量将大大增加

我们上来不是无脑增加训练数量此时我们先看下当前使用1000个训练集是否合适在进行下面的计算此时我们画出学习曲线看看训练集和交叉测试集在数据集增加情况下变化如何

显然左边的图随着数据集增加会有好的效果而右边的当数据集增大之后没有明显的效果这时我们就不需要增大训练集了看看是不是要增加特征再继续进行训练

随机梯度下降

（以单变量线性回归为例）当我们的假设函数和代价函数入上图所示时我们使用梯度下降

不断更新theta 好处就是可以不断更新theta 不用跑整个数据集然后调整

最后会如此图一样找到代价最小值但数据集增大此处计算量会变得很大

下面引入随机梯度下降

我们定义参数θ 关于训练样本(x(i),y(i))的代价如上图此时代价函数表现为每一个样本的代价的总和的平均值

此时他的梯度下降为想将m个训练样本打乱

然后对单个样本进行梯度下降（可以进行较少次的迭代这样可以使他一点点走向最低点）进行m次此时不断的对下一个训练样本进行拟合得更好

随机梯度下降不断朝着最小值附近移动但是最后会在最小值附近徘徊（为什么不是一次就到了最低点是因为数据量少可能达不到最优解？）对于这个疑问--

“在随机梯度下降中我们有一个外层循环它决定了内层循环的执行次数所以内层循环应该执行多少次呢这取决于训练样本的大小通常一次就够了最多到10次是比较典型的所以我们可以循环执行内层1到10次因此如果我们有非常大量的数据普查的人口数据有13亿人口所以每次你只需要考虑一个训练样本这里的i就是从1到3亿了所以可能你每次只需要考虑一个训练样本你就能训练出非常好的假设这时由于m非常大那么内循环只用做一次就够了但通常来说循环1到10次都是非常合理的但这还是取决于你训练样本的大小如果你跟批量梯度下降比较一下的话批量梯度下降在一步梯度下降的过程中就需要考虑全部的训练样本所以批量梯度下降就是这样微小的一次次移动这也是为什么随机梯度下降法要快得多这就是随机梯度下降了如果你应用它应该就能在很多学习算法中应用大量数据了并且会得到更好的算法表现”

小批量梯度下降

随机梯度下降是一个个来二小批量梯度下降则是b个b个来 b一般在2-100之间

那么公式为：

和批量梯度下降比我们只看前b个就可以开始修改theta了而且这么做好处是方便是矢量化

随机梯度下降收敛

接下来说如何让其正常收敛和调整学习速率α的值

如何为收敛就是让代价函数在每一次迭代中都变小小着小着就收敛了

我们此时画出随机梯度/小批量梯度算法每一步的值因为不是批量梯度下降这时就可以画出cost(损失函数)的值

结合下面图像说明下不同的情况改如何调整

左上角的图片红色的是学习速率α 比较小的和蓝的比较最后损失函数值更小而且抖动也更小

右上角的图片蓝色的是在1000个数据为一组会出现较大波动改成5000 波动减下但要5000个才打一个点

左下角的就算增加增加一次迭代样本数同样下降的不明显此时就要更改特征值了或是看看是不是算法问题

当出现左下角情况的时候会发现并没有收敛这是要调整

学习速率的选择

可以动态的更改α的值让他越来越小可以让他为一个常数除以迭代次数加上某个常数

在线学习

当我们有稳定的数据流入时我们可以告别使用一堆已有数据来当做训练集我们可以在线学习的方式

1.假如我们有一个运快递的网站用户来会提供一些特征 x 这些特征是快递出发地和到达地和给客户的价格而y则是用户是否选择购买 1 购买了 0表示拒绝购买此时情况就是每次进来一个样本我们学习一次调整一下 theta 此时用到的是就是类似随机梯度下降只不过样本我们是一次性的而且这种方式在经济发生变动时也会随之进行更改我们theta

2.当你有一个购物网站这个网站有搜索功能时候我么做的是估算一个概率来看这个用户会点击这个手机的概率当你有一对手机用户使用一个搜索条件如x x x 我们会根据xxx返回 10个用户最有可能点击的搜索结果用户点击了那么这被点击的记做1 没点的记做0 我们就能一下子拿到10个 x,y 了这样我们就是就是类似小批量随机梯度下降了只不过样本我们是一次性的改更新我们的theta

映射约减 (map reduce) 方法

映射化简是将m个测试数据分成若干份计算出temp 然后再合到一起求出相应的最后的theta 只要算法可以表示为求和的方式就可以用这种方法先分开然后结果合在一起

one_two12

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
coursera 机器学习---大规模机器学习

Gradient descent with large data sets （大数据集的梯度下降）视频地址现在的机器学习和以前比要方便很多现在拥有了大数据拥有了可以用来进行学习的数据机器学习领域有一个说法是通常不是最好的算法胜出而是谁有最多的数据那么当我们用了大量的数据又该如何使用呢在我们计算一个损失函数的时候通常会使用梯度下降算法来求出th...
复制链接

扫一扫