Stanford 机器学习笔记 Week10 Large Scale Machine Learning

最新推荐文章于 2021-01-31 22:47:16 发布

Baoli1008

最新推荐文章于 2021-01-31 22:47:16 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Baoli1008/article/details/51014403

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Gradient Descent with Large Datasets

Learning With Large Datasets

这里写图片描述

在处理海量数据时对算法会有更高的要求。比如在计算偏导数时，当m很大时对m个元素求和的开销会很大。

因此在将算法应用于海量数据时最好先确定算法没有high-bias，方法就是绘制leaning curve，左图是high-varience的，增大数据量会改善算法表现，而右图high-bias则不行。

Stochasic Gradient Descent

上节提到在linear regression梯度下降时求一次偏导数就需要遍历整个Training Set，开销非常大，这种方法称为Batch Gradient Descent。

另一种适合大数据的方法是Stochastic Gradient Descent：

这里写图片描述

定义新的函数cost，表示一个单一样本的误差。重新定义J(θ)为所有样本cost之和。

这里写图片描述

上面是新算法的完整过程。

原算法遍历一次全部样本才能进行一次梯度下降，而新算法每遍历一个样本就进行一次（使得模型更接近这个样本），这样每处理一个样本虽然不能完全保证J(θ)缩小，但是速度大大增快。

当样本量极大时，通常遍历一次全部样本就可以使模型收敛。

Mini-Batch Gradient Descent

Batch Gradient Descent是一次迭代所有样本
Stochasic Gradient Descent是一次迭代一个样本
Mini-Batch Gradient Descent就是一次迭代b个样本

在一些情况下会比Stochasic Gradient Descent还快，因为同时操作b个样本的计算可以用向量化来优化。

Stochastic Gradient Descent Convergence

在 Batch Gradient Descent中检测算法是否收敛的方法是绘制一个图像，横坐标是迭代次数，纵坐标是J(θ)。对于Stochastic Gradient Descent同样可以使用这个方法。区别是因为数据量大，每k次迭代（k个样本）绘制一个点。

注意在Stochastic Gradient Descent时，对于第i个样本我们是先计算cost(i)，再用x(i)优化模型。

绘制出的图像会是震荡的。

这里写图片描述

图一是一个理想的图像。
图二将k增大为5000，可以使曲线更平滑。
图三因为震荡剧烈无法判断是否收敛，此时可以增大k使图像更清晰。
图四表示算法没有收敛，此时应减小a

Stochastic Gradient Descent的收敛不是停在全局最优点，而是在最优点附件震荡。一种减少震荡的方式是将a设为 c1 / (c2 + 迭代次数)，随着迭代次数的增加a逐渐减小。但是找到合适的c1,c2又需要多余计算。

Advanced Topics

Online Learning

在线学习的方法很简单，每获得一个新样本，就对该样本执行梯度下降，然后丢弃它。比如预测用户在浏览购买手机网站时输入需求，计算最有可能点击的链接。这样在用户每一次点击后，都用梯度下降处理该次点击。

Map Reduce and Data Parallelism

MapReduce的思想很简单，就是利用并行技术，将计算任务分块，再将计算结果合并。一个例子就是在做梯度下降时有一个求和的操作，将需要求和的东西分成几个部分交给不同的机器/CPU去运算，再将结果重新加和。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Baoli1008 CSDN认证博客专家 CSDN认证企业博客

码龄10年

293: 原创

13万+: 周排名

211万+: 总排名

65万+: 访问

: 等级

6875: 积分

69: 粉丝

159: 获赞

32: 评论

285: 收藏

私信

关注

热门文章

分类专栏

数据结构 63篇
水题 43篇
贪心 4篇
图论 31篇
搜索 32篇
数论 15篇
dp 31篇
模拟 17篇
普林斯顿大学MOOC algorithm 1 2篇
计算几何 11篇
python 8篇
linux 5篇
数学 28篇
字符串 16篇
MacOX
JAVA
汇编语言 4篇
minisat 2篇
C++ 4篇
MFC 1篇
Numpy 2篇
机器学习 23篇
Octave 6篇
机器学习实战 1篇
Github 1篇
pandas 2篇

最新评论

补码运算中的溢出
做而论道_CS: 在计算机系统中，正负数值，一律采用补码表示和存储。数值、补码，直接转换即可，无须讨论原码反码。补码的运算，与一般二进制的运算相同。但是，补码运算时，不包括进位位。补码运算的结果，一旦超出表达范围，就是溢出。溢出的表现是：三个符号位，不符合正确的关系。判断是否溢出，看三个符号就行了，不用看原码反码。如：085h + 9ch 　= 1000 0101b + 1001 1100b 　= (1) 0010 0001b 两个负数相加，和，却是正数！不符合正常逻辑，这就是溢出了。又：0e7h + 0b3h 　= 1110 0111b + 1011 0011b 　= (1) 1001 1010b 两负数相加，和，依然是负数。无异常，这就没有溢出。溢出，与进位位，并无关系。与原码，更没有关系。归结起来，补码的溢出判断规则就一句话：同符号数相加，结果的符号位和两加数不同，既是溢出。完全正确。
Python 动态生成变量名
print_bookcase: 怎么用一个类创建多个对象，好几十个那种
Python 动态生成变量名
残存的影子: 文件分割
Python 动态生成变量名
这样啊812: 你调用什么情况需要调用这么多?
Python 动态生成变量名
残存的影子: 写的不明白啊,那我调用呢?还是要一个个写? 还要从1写到100?,那我要他有何用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。