MapReduce概念详解

数据处理能力提升的两种路线:
1.单核CPU从单核到双核到四核八核,
2分布式并行编程
随着 CPU制作工艺达到天花板,现在分布式并行编程有了发展,分布式并行编程就是借助一个集群通过多台机器同时处理大规模数据集。
谷歌提出了mapreduce,apache做了开源实现,一个HDFS和Mapreduce合称为MapReduce,谷歌提出之前实际也有分布式并行编程

MapReduce优点:
每个节点都拥有自己的内存,自己的储存空间,一个节点出现问题不会影响其他的,所以容错性方面提升很多
MapReduce新增节点硬件价格友好很多,不需要刀片服务器,PC机就行,扩展性好很多
MapReduce自动实现分布式部署,学习难度低很多
MapReduce适用于非实时的批处理以及数据密集型应用

MapReduce处理步骤:MapReduce被简单抽象成Map函数和Reduce函数(采用Divide and Conque),把大数据集切成非常多的独立的小分片,为每一个分片单独启动一个map任务,多个map任务同时并行处理

MapReduce理念:
计算向数据靠拢:先选一些节点作为Map机器,执行Map任务,reduce的时候,选一些机器作为reduce机器,它就找离自己最近的map节点去完成任务,理想情况是map,和reduce在一台机器上完成,这样做减少了网络传输开销,大大提升了分布式程序处理性能
(数据向计算靠拢:要完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放到计算节点上运行,把需要的数据从不同节点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值