Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-sets) in-parallel on large clusters (thousands of nodes) of commodity hardware in a reliable, fault-tolerant manner.
in-parallel并行处理
fault-tolerant manner 以容错的方式运行
容错:大数据分布式框架,必备的点
重试机制
工作中用的真不多,但是思想非常非常非常非常重要
历史的产物
但是深层次的含义是务必要掌握的
给我们提供好了非常多的接口,我们要做的就是根据我们的业务逻辑开发+MR框架提供的底层实现机制 = MR Application ==>提交到YARN上运行
形成的是一个分布式的应用程序
但是:你是感知不到分布式的概念
感觉就是:你写的是一个单机应用程序,运行起来是一个分布式
分布式的概念给我们屏蔽掉了
适用于离线计算、批计算
不适用:实时计算、流式计算
一个MapReduce作业:
Mapper
Reducer(有的有,有的没有)
Driver:main方法里面的