MapperReduce的使用及高级功能

涉及到的知识:

  1. Yarn调度MapReduce的过程
  2. Mapper
  3. Reduce
  4. 排序
  5. 分区
  6. Combiner
  7. Shuffle

Yarn调度MapReduce的过程

Yarn和MapReduce的关系,就跟我们web项目中和tomcat的关系一样,Yarn是MapReduce运行的容器。下面我们先介绍一下Yarn的一些概念。

Yarn也是主从结构:ResourceManager(主节点)、NodeManager(从节点–真正干活的)。

(1)ResourceManager资源管理器

  • 接收客户端的请求:执行任务
  • 分配资源
  • 分配任务

(2)NodeManager阶段管理器(运行任务MapReduce)

  • 从DataNode上获取数据,执行任务

下面来一张Yarn调度MapReduce的原理图:

Yarn调度MapReduce任务的过程

在原理图里面涉及到一个资源分配的关系,Yarn资源分配的方式有三种:

  1. FIFO Scheduler:先来先得。缺点:没有考虑任务的优先级

  2. Capacity Scheduler:容器管理。

  3. Fair Scheduler:公平调度。注意:安装配置Hive on Spark,需要配置Yarn为Fair Scheduler

    ​ 前提:假设每个任务具有相同的优先级,平均分配系统的资源(不过可以配置任务权重,把优先级考虑进去了)

后面会涉及到这一方面的问题,到时候在说明。

MapReduce的原理和运用

Hadoop背景知识中,我们已经介绍过什么是MapReduce,并且在Hadoop环境搭建里面运行过系统的wordcount jar,获取到以下结果:
伪分布环境下的wordcount结果

现在我们通过详细分析wordcount的MapReduce过程来实现自己的wordcount程序,并且加入排序(默认是字典顺序,即上面的结果,我们将其改为逆字典顺序)。在写代码之前我们先来分析wordcount的MapReduce流程:

WordCount数据处理过程

从上面的原理图我们可以看出一共是分为两个阶段:Mapper、Reduce,Mapper的输出作为Reduce的输入,Reduce完成之后输出到HDFS。下面我们就来实现一个自己的MapReduce:

//Mapper                                k1          v1    k2      v2
class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> {

    /**
     *  context表示Mapper的上下文
     *  上文:HDFS
     *  下文:Mapper
     */
    @Override
    protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
        //获取数据:I love Beijing
        String data = v1.toString();

        //分词
        String[] words = data.split(" ");

        //输出k2 v2
        for (String word : words) {
            context.write(new Text(word),new IntWritable(1));
        }
    }
}
// Reduce                                k3     v3        k4     v4
class WordCountReduce extends Reducer<Text,IntWritable,Text,IntWritable> {

    /**
     *  context表示Reducer的上下文
     *  上文:Mapper
     *  下文:HDFS
     */
    @Override
    protected void reduce(Text k3, Iterable<IntWritable> v3, Context context) throws IOException, InterruptedException {
        //对v3求和
        int total = 0;
        for (IntWritable v : v3) {
            total += v.get();
        }

        //输出        k4单词        v4频率
        context.write(k3,new IntWritable(total));
    }
}
//自己的比较器(根据不同类型,继承不同的Comparator,这里使用过的是Text)
class MyNumberComparator extends Text.Comparator {

    @Override
    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
        //定义自己的排序比较规则:改成降序
        return -super.compare(b1, s1, l1, b2, s2, l2);
    }
}
//程序入口
class WordCountMain {

    public static void main(String[] args) throws Exception{
        // 创建一个job和任务入口
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(WordCountMain.class);  //main方法所在的class

        
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值