处理海量数据的模式MapReduce,大规模数据集的并行运算

MapReduce是一种处理海量数据的并行编程模式,用于大规模数据集(通常大于1TB)的并行运算。
“Map(映射)”、“Reduce(化简)”的概念和主要思想,都是从函数式编程语言和矢量编程语言借鉴。
适合非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。


MapReduce计算模型


分布式计算的瓶颈是网络带宽。“本地计算”是最有效的一种节约网络带宽的手段。


MapReduce的特点


1、输入的键值是不固定的,由分析人员选择
2、对于非结构化和半结构化数据,非常有效
3、适合于大规模数据的一次写入,多次查询
4、MapReduce其核心就是高速、流式读写操作


无共享


无共享结构让MapReduce程序员无需考虑系统的部分失效问题;
因为自身的系统实现,能够检测到失败的map或reduce任务;
并让正常的机器重新执行这些失败的任务;
因为各个任务之间彼此独立;
任务的执行顺序是无关紧要的;


MapReduce计算流程


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值