Coursea-吴恩达-machine learning学习笔记（十七）【week 10之Large Scale Machine Learning】

最新推荐文章于 2022-08-17 19:46:06 发布

痞靥

最新推荐文章于 2022-08-17 19:46:06 发布

阅读量332

点赞数

分类专栏：机器学习文章标签：随机梯度下降 map-reduce

本文链接：https://blog.csdn.net/u012347642/article/details/80958996

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在机器学习领域，通常不是最好的算法胜出，而是最多的数据胜出。
这里写图片描述
但较大的训练数据集存在计算量大的问题。

是选择使用较大的训练集还是随机抽取一些样本组成小训练集，可以采用画学习曲线的方式决定：

如果为高方差的学习算法，使用较大训练集效果较好；
如果为高偏差的学习算法，使用两种训练集的效果相差不大，应增加特征量，小训练集可以减小计算量。

批量梯度下降 $VS$ 随机梯度下降(以线性回归为例)：

批量梯度下降：
$J_{train}(\theta)={1\over2m}\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
$Repeat\ until\ convergence$ {

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (f o r e v e r y j = 0, \dots, n)

$\theta_j:=\theta_j-\alpha{1\over m}\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j\\(for\ every\ j=0,\cdots,n)$ }

随机梯度下降：
$cost(\theta,(x^{(i)},y^{(i)}))={1\over2}(h_\theta(x^{(i)})-y^{(i)})^2$
$J_{train}(\theta)={1\over m}\sum\limits_{i=1}^m cost(\theta,(x^{(i)},y^{(i)}))$
1.随机重排训练样本
2. $Repeat\{$
$\qquad\ for\ i:=1,\cdots,m\{$
$\qquad\qquad\ \theta_j:=\theta_j-\alpha(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
$\qquad\qquad\ (for\ every\ j=0,\cdots,n)$
$\qquad\}$
$\}$

算法对比：
迭代过程

批量梯度下降：每次下降迭代都要考虑所有的样本；
随机梯度下降：扫描所有训练样本，每次下降迭代只考虑一个样本。在数据预处理时随机重排训练样本可以使梯度下降更快收敛。

收敛过程

批量梯度下降：收敛过程倾向于一条近似的直线，一直找到全局最小值；
随机梯度下降：每次迭代很快，只需保证对一个训练样本拟合就可以，以某个比较随机、迂回的路径朝全局最小值逼近，在某个靠近全局最小值的区域内徘徊。外层循环通常设置为 $1\sim10$ 次，视训练集规模而定。

小批量梯度下降：
批量梯度下降：每次迭代用所有的 $m$ 个样本；
随机梯度下降：每次迭代用 $1$ 个样本；
小批量梯度下降：每次迭代用 $b$ 个样本， $b$ 的标准取值为 $10$ ，也可以是 $2\sim 100$ 之间的任何一个数。

设 $b=10,m=1000$
$Repeat\{$
$\qquad\ for\ i=1,11,21,31,\cdots,991\{$
$\qquad\qquad\ \theta_j:=\theta_j-\alpha{1\over 10}\sum\limits_{k=i}^{i+9} (h_\theta(x^{(k)})-y^{(k)})x^{(k)}_j$
$\qquad\qquad\ (for\ every\ j=0,\cdots,n)$
$\qquad\}$
$\}$

小批量梯度下降 $VS$ 批量梯度下降：
每次迭代处理 $b$ 个样本而不是全集，比批量梯度下降快。

小批量梯度下降 $VS$ 随机梯度下降：
当有好的向量化实现时，小批量梯度下降更快，因为允许部分并行计算 $b$ 个样本的和。

小批量梯度下降算法的一个缺点是有一个额外的参数 $b$ ，需要调试其大小。

如何判断是否收敛？

批量梯度下降算法是否收敛的标准判定方法：
$J_{train}(\theta)={1\over2m}\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
画出代价函数随着迭代次数增加的取值变化，确保在每次迭代后都是下降的。

随机梯度下降算法是否收敛的判定方法：
$cost(\theta,(x^{(i)},y^{(i)}))={1\over2}(h_\theta(x^{(i)})-y^{(i)})^2$
在随机梯度下降算法学习时，当我们使用样本 $(x^{(i)},y^{(i)})$ 进行训练来更新 $\theta$ 之前，可以算出该样本对应的 $cost(\theta,(x^{(i)},y^{(i)}))$ ；
为了验证算法的收敛性，每进行 $1000$ 次迭代，画出这 $1000$ 个 $cost(\theta,(x^{(i)},y^{(i)}))$ 的平均值，观察画出来的图，可以检查随机梯度下降是否在收敛。

如果曲线看起来噪声较大或总是上下振动，可以尝试增大要平均的样本数量；
如果曲线在上升，就换一个小一点的 $\alpha$ 值。

关于随机梯度下降算法的学习速率 $\alpha$ ：
当运行随机梯度下降算法时，不会真的收敛，而是一直在最小值的附近徘徊，最终得到的参数只是接近全局最小值，而不是真正的全局最小值。
在随机梯度下降算法的典型应用中，学习速率 $\alpha$ 一般保持不变，如果想让随机梯度下降收敛到全局最小值，可以随着时间减小 $\alpha$ 的取值，如：
$α = c o n s t 1 i t e r a t i o n N u m b e r + c o n s t 2$ $\alpha={const1 \over{iterationNumber+const2}}$
$iterationNumber$ ：指运行随机梯度下降的迭代次数；
$const1$ 和 $const2$ ：是两个额外参数，需要选择。
注：很少采用逐渐减小 $\alpha$ 值的方法，因为确定 $const1$ 和 $const2$ 需要更多工作量，而且通常接近全局最小值的参数已经满足需求。在随机梯度下降算法中，还是更多地选择 $\alpha$ 为常数。

在线学习：
当拥有连续数据流时，需要一个算法从中学习来模型化问题。

许多网站使用不用版本的在线学习算法从大量登录网站又离开的用户身上进行学习，学习用户偏好，使用这些信息优化网站决策。

举例：物流网站，用户输入包裹类型、始发地和目的地，网站给出价格，用户选择是否邮寄( $y=1$ 或 $0$ )。

抽象出问题原型，特征值 $x$ 包括包裹类型、始发地、目的地、网站价格，我们要学习 $p(y=1|x;\theta)$ 来调整价格。

利用逻辑回归算法：
$Repeat\ forever\{$
$\qquad$ 获取特定用户对应的 $(x,y)$
$\qquad$ 利用 $(x,y)$ 更新 $\theta$
$\qquad$ $\theta_j:=\theta_j-\alpha(h_\theta(x)-y)x_j\quad (j=0,\cdots,n)$
$\qquad\}$
$\}$

在线学习中，我们获取一个样本，利用样本进行学习，然后丢弃样本。

针对此类网站，数据本质是自由且无限的，在线学习算法可以对正在变化的用户偏好进行调适。

$map-reduce$ (映射约减)：
设存在 $400$ 个样本 $\{(x^{(1)},y^{(1)}),\cdots,(x^{(400)},y^{(400)})\}$
批量梯度下降算法为： $\theta_j:=\theta_j-\alpha{1\over 400}\sum\limits_{i=1}^{400} (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
设有4台计算机，一种解决方案是将训练集划分为4个子集，每台计算机处理四分之一的训练数据，如下图所示：

$Computer1:Use(x^{(1)},y^{(1)}),\cdots,(x^{(100)},y^{(100)})$
$\qquad\qquad\qquad temp^{(1)}_j=\sum\limits_{i=1}^{100} (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
$Computer2:Use(x^{(101)},y^{(101)}),\cdots,(x^{(200)},y^{(200)})$
$\qquad\qquad\qquad temp^{(2)}_j=\sum\limits_{i=101}^{200} (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
$Computer3:Use(x^{(201)},y^{(201)}),\cdots,(x^{(300)},y^{(300)})$
$\qquad\qquad\qquad temp^{(3)}_j=\sum\limits_{i=201}^{300} (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
$Computer4:Use(x^{(301)},y^{(301)}),\cdots,(x^{(400)},y^{(400)})$
$\qquad\qquad\qquad temp^{(4)}_j=\sum\limits_{i=301}^{400} (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
当各计算机完成运算，将结果送到一台中心计算服务器，把这些临时变量结合起来：
$\theta_j:=\theta_j-\alpha{1 \over 400}(temp^{(1)}_j+temp^{(2)}_j+temp^{(3)}_j+temp^{(4)}_j)\ (j=0,\cdots,n)$

如果机器学习算法可以表示为训练样本的某种求和，则可以考虑使用 $map-reduce$ 将运算并行化。

除了计算机集群，如果一台计算机有多核 $CPU$ ，也可以使用 $map-reduce$ ，如下图：

某些线性代数函数库会自动利用多个核并行完成线性代数运算。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

痞靥

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（3-1）-- 机器学习策略（1）

大树先生的博客

10-18 7387

结构化机器学习项目 --- 机器学习策略（1）

吴恩达机器学习笔记（十七）-大规模机器学习

Messi-Q Blog

07-03 2500

第十八章大规模机器学习学习大数据集这一章中将讲述能够处理海量数据的算法。思考：为什么要使用海量数据集呢？要知道获取高性能的机器学习系统途径是采用低偏差的学习算法，并用大数据进行训练。这里拿之前提到过的易混淆词来举例，For breakfast I ate __ eggs，这里填two，而非too或者to，从下面的图中可以明确，只要使用大数据对算法进行训练，它的效果似乎会更...

参与评论您还未登录，请先登录后发表或查看评论

吴恩达机器学习 Machine Learning Week_10学习笔记

weixin_42330890的博客

03-09 243

大规模机器学习随机梯度下降小批量梯度下降算法随机梯度算法的调试 随机梯度下降 普通的梯度下降法公式如下： θj=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}θj=θj−αm1i=1∑m(hθ(x(i...

Coursea-吴恩达-machine learning学习笔记（一）【week 1之introduction】

痞靥的博客

04-18 556

最常见的机器学习算法：1.监督学习：已有数据集包含标记(即包含对各个样本的评价)，学习目的明确监督学习包含两种类型： 1.1回归：预测的标记连续，如（0.23，0.56，0.79） 1.2分类：预测的标记离散，如（多云，晴，小雨）2.非监督学习(或无监督学习)：已有数据集不包含标记，学习目的不明确非监督学习即为聚类。机器学习建议使用的编程环境：Octave。...

coursea 深度学习第一课神经网络和深度学习全部练习

01-23

吴恩达coursea上深度学习课程，第一课：神经网络和深度学习课后练习

《Machine Learning》课程PPT-吴恩达10

10-13

Advice for applying machine learning 1、Deciding what to try next 2、Evaluating a hypothesis 3、Model selecDon and training/validaDon/test sets 4、Diagnosing bias vs. variance 5、Regularization ...

《Machine Learning》课程PPT-吴恩达17

最新发布

10-15

Large scale machine learning 1、Learning with large datasets 2、Stochastic gradient descent 3、Mini-batch gradient descent 4、Stochastic gradient descent convergence 5、Online learning 6、Map-reduce...

《Machine Learning》课程PPT-吴恩达01

10-09

Machine Learning - Grew out of work in AI - New capability for computers Examples: - Database mining Large datasets from growth of automation/web. E.g., Web click data, medical records, biology, ...

《Machine Learning》课程PPT-吴恩达11

10-13

Machine learning system design 1、Prioritizing what to work on:Spam classification example 2、Error analysis 3、Error metrics for skewed classes 4、Trading off precision and recall 5、Data for ...

《Machine Learning》课程PPT-吴恩达04

10-10

大模型实战教程 ...4、Gradient descent in practice II: Learning rate 5、Features and polynomial regression 6、Normal equation 7、Normal equation and non-‐inver2bility(optional)

完整视频-coursera公开课普林斯顿算法 ⅠⅡ部分

01-17

本资源为BT文件，下载速度快，如果P2P工具支持下载字幕可以进行下载 Coursera上的公开课，普林斯顿大学教授Robert Sedgewick主讲《Algorithms》算法 Java实现课程网站http://algs4.cs.princeton.edu/home/ 视频一个两部分，算法（一）主要集中在基础的数据结构、排序、查找算法。相关主题有：并查集算法，二分查找，栈，队列，背包，插入排序，选择排序，希尔排序，快速排序，三切分快排，归并排序，堆排序，二分堆，二分查找树，红黑树，链表，线性哈希表，Graham扫描，kd树。算法（二）主要讲解图论和字符串处理的相关算法。相关主题有：深度优先搜索，宽度优先搜索，拓扑排序，Kosaraju-Sharir算法，Kruskal算法，Prim算法，Dijkistra算法，Bellman-Ford算法, Ford-Fulkerson算法, LSD radix sort算法, MSD radix sort算法, 3-way radix 快排算法, 多路尝试法, 三元查找尝试法, Knuth-Morris-Pratt算法, Boyer-Moore算法, Rabin-Karp算法, 正则匹配, run-length编码, Huffman编码, LZW压缩, 还有Burrows-Wheeler变换。

免费学习coursera的课程的操作办法

我的学习笔记

02-28 4万+

官网：https://www.coursera.org操作步骤：1、访问官网。注册，登录。2、选择自己需要的学科大类，比如我选择了计算机类，https://www.coursera.org/browse/computer-science界面语言一般自动转换，根据你所在国家，他会自动识别。课程语言由课程决定。3、选择想学的课程。比如：https://www...

世界上最大的在线学习平台: Coursera 入门指南

云满笔记

08-17 1万+

我在 Coursera 平台上学习了很多课程, 其中过程并不乏味, 相反常常伴随着接触到新思路新知识的惊喜和感动。教育和学习是支持人不断上升的途径, 但抛开功利的成分, 学习本身已经是非常令人享受的体验。希望大家能通过这篇文章熟悉 Coursera 平台的用法, 并有机会接触到自己感兴趣的新领域、新知识。.........

吴恩达机器学习笔记week10

咚咚锵的博客

09-02 988

本周主要讲的是大规模的机器学习。其实里边很多内容在deeplearning.ai里边都讲过了。所以这里就把之前没有的部分做个总结。大规模数据的意义 Banko and Brill, 2001发表的一个文章发现，只要数据规模变大，那么很多的算法表现得都很好。所以其实数据是机器学习里边非常重要的一个部分。但是呢，这个argument成立的前提条件是所选的算法是一个bias很小...

Coursera无法观看课程解决方案

weixin_30357231的博客

10-07 967

Coursera无法观看课程解决方案最近Cousera一直表现不佳，课程视频无法观看。小编结合网上找到的信息，操作一番便解决了问题，视频也可以正常观看了。首先是win+s找到记事本，并用管理员身份打开，在记事本页面使用ctrl+o打开hosts文件，路径是C:\Windows\System32\drivers\etc，右下角的选项改为...

Coursera 国内无法登陆问题

Laic Zhang的博客

08-04 1万+

参考： 1.Coursera登不上去 | 知乎 2.Win10如何修改hosts | 百度经验浏览器在访问https://www.coursera.org时，出现正在等待 d3njjcbhbojbot.cloudfront.net… 或者 d3c33hcgiwev3.cloudfront.net，然而实际上等很久也不一定能进去。可能是因为默认访问的服务器节点延迟TTL过长，而按网上说的方法修改...

今天折腾了半天，终于可以看Coursera了

juwikuang的专栏

11-09 1万+

用我的iPad里面装的Coursera，点击下载视频。等下好了再看，就不卡了。卡的感觉真的很难受，感觉心脏病要犯了。

解决coursera课程国内打不开的问题

热门推荐

ncst

08-14 5万+

如果你知道如何在mac和windows系统，修改hosts文件，直接就打开hosts，添加一行 52.84.246.72 d3c33hcgiwev3.cloudfront.net 保存就可以了。但是如果你不知道，就听我再啰嗦几句吧。。。如果你是Mac系统，那么你就按照以下步骤来Find 前往->前往文件夹 ,在弹出的对话框里面输入 /private/etc/，然后找到

吴恩达新书《Machine Learning Yearning》50-52：数据驱动的深度学习组件选择

"吴恩达在2018年出版的新书《Machine Learning Yearning》章节50至52，探讨了在构建端到端机器学习管道系统时选择组件的关键问题，尤其是数据可用性对系统性能的影响。书中通过自动驾驶系统的例子，阐述了如何有效地...