hadoop的mapreduce

mapreduce是处理海量数据的分布式计算框架

解决了:
数据分布式存储(hdfs)
作业调度(任务划区域执行)
容错(集群容错 能力高)
机器间通信复杂问题


分而治之思想:
分解
求解
合并
mapreduce映射:
分:map (复杂问题分解若干任务)
和:reduce(汇总个数可设置)

 


hadoop计算流程:
inputdata -> fomate -> hdfs => n个input data 切分 => 分配给N个map => reduce => output data

map task:
input data split ->N个 map => 内存写缓存(清空) => 回写N硬盘(key排序)文件 =>合并硬盘块(fetch)
reduce task:
fetch(每个文件对应marge)->marge ->归并排序 -> reduce(每个key负责不一样) -> output data

 

hdfs:

master-slave
保证可靠性可用性slave会有数据备份

hdfs分布式文件系统:
系统可靠(多份数据)
可扩展(集群扩展)
并发处理(吞吐能力)

 

转载于:https://www.cnblogs.com/webster1/p/7207898.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值