大数据-hadoop MapReduce
大数据-hadoop MapReduce
MapReduce
Reduce:
- 以一组为单位做计算~!
什么叫做一组?分组~!
依赖一种数据格式:key:val
K,v的实现:由map映射实现的~~!
思考:为什么叫MapReduce?
MR:
数据已一条记录为单位经过map方法映射成KV,相同的key为一组,这一组数据调用一次reduce方法,在方法内迭代计算着一组数据。
迭代器模式
数据集一般是用迭代计算的方式
对应关系
block > split
1:1
N:1
1:N
split > map
1:1
map > reduce
N:1
N:N
1:1
1:N
group(key)>partition
1:1
N:1
N:N
1:N
实操案例
MR计算框架:计算向数据移动如何实现?