【机器学习实战-python3】大数据与MapReduce

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action

一、MapReduce:分布式计算的框架
MapReduce

优点:可在短时间内完成大量工作。
缺点:算法必须经过重写,需要对系统工程有一定的理解。
适用数据类型:数值型和标称型数据。

Google公司的Jeffrey Dean和Sanjay Ghemawat在2004年的一篇论文中第一次提出了这个思想,该论文的题目是“MapReduce:Simplified Data Processing on Large Clusters” 1 MapReduce的名字由函数式编程中常用的map和reduce两个单词组成。

MapReduce的优势在于,它使得程序以并行方式执行。
这里写图片描述

在一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,
例如在机器0上存放的输入数据可能还存放在机器1上,以防机器0出现问题。同时,每个节点都必须与主节点通信,表明自己工作正常。如果某节点失效或者工作异常,主节点将重启该节点或者将该节点移出可用机器池。
总结一下上面几个例子中关于MapReduce的学习要点:

 主节点控制MapReduce的作业流程;
 MapRedu

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值