大数据学习教程SD版第四篇【Hadoop MapReduce】

最新推荐文章于 2024-09-18 20:52:30 发布

道-闇影

最新推荐文章于 2024-09-18 20:52:30 发布

阅读量358

点赞数

文章标签： hadoop mapreduce big data

本文链接：https://blog.csdn.net/qq_41200768/article/details/121783228

版权

本文详细介绍了Hadoop MapReduce的优缺点、核心思想、序列化类型、编程规范及工作流程，包括MapTask和ReduceTask的机制。重点讨论了WordCount案例、自定义序列化、Shuffle机制、分区与排序以及预聚合Combiner。此外，还涉及MapReduce在ETL、Join操作中的应用以及压缩策略。

摘要由CSDN通过智能技术生成

4. Hadoop MapReduce

分布式计算引擎框架，离线计算，不擅长DAG计算

4.1 MapReduce 优点

易于编程，实现框架接口即可
良好的扩展性，动态加节点
高容错性，任务可以转移
适合海量数据计算

4.2 MapReduce 核心思想

一个MapTask 默认处理128M数据

以WordCount 的MapReduce程序为例

Map阶段 MapTask并行工作

读数据，按行处理
按空格(或其他切割符)切分单词
形成KV键值对（word,1）
将所有KV键值对，按照指定的分区，溢写到磁盘

Reduce阶段 ReduceTask并行工作

根据MapTask的分区数，开启对应数量的ReduceTask
一个ReduceTask只处理对应分区号的多个MapTask产生的结果
最终完成单词统计，并输出到结果文件

4.3 MapReduce 序列化类型

除了String 在Hadoop 类型中是Text外，其余都是在原Java类型后加上Writable后缀

4.4 MapReduce 编程规范

Mapper阶段

继承Mapper父类，重写map()方法
Mapper输入输出都是KV
map()方法定义处理逻辑，对每个KV调用一次

Reduce阶段

继承Reduce父类，重写reduce()方法
Reduce输入输出也是KV
reduce()方法定义处理逻辑，对每组KV(按K分组)调用一次

Dirver阶段

启动MapReduce程序的客户端，提交任务到YARN集群

4.5 MapReduce WordCount

执行流程： Mapper : setup() -> run() -> for map() -> cleanup() ->Reducer: setup() ->run -> for reduce() ->cleanup()

WordCountMapper

package com.ipinyou.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
   

    private Text outK = new Text();
    private IntWritable outV = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   
        String line = value.toString();
        String[] words = line.split