Hadoop 重要的计算框架
Mapreduce:我们至少应该学习以下内容
- Mapreduce的工作原理是什么?
- Mapreduce的工作流程是什么?
- Mapreduce的编程模型是什么?
- shuffle是什么?
- partition是什么?
- combiner是什麽?
他们三者之间的关系是什么? - map的个数由谁来决定,如何计算?
- reduce个数由谁来决定,如何计算?
Hadoop MapReduce是一个软件框架,我们可以使用它轻松地编写应用程序,以可靠的、容错的方式并行处理大量数据。MapReduce是一种包含Map和Reduce两种算法的编程技术。
Map任务:Map stage或mapper的工作是处理输入并将其转换为键/值对形式的较小部分。
Reduce任务:Reduce阶段或减速器的工作是将阶段数据输出处理为更小的元组(键/值对)。这个阶段结合了shuffle和reduce任务。