尚硅谷hadoop3.x-Yarn

最新推荐文章于 2024-07-06 03:08:00 发布

さとみ大好き

最新推荐文章于 2024-07-06 03:08:00 发布

阅读量192

点赞数

文章标签：大数据 yarn hdfs

本文链接：https://blog.csdn.net/m0_72924007/article/details/132133876

版权

文章目录

Yarn资源调度器
Yarn案例实操
- Yarn的Tool接口案例

Yarn资源调度器

1. Yarn基础架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

在这里插入图片描述

2. Yarn工作机制

在这里插入图片描述

当程序运行到job.waitForCOmpletion()方法时，会启动YarnRunner。YarnRunner向ResourceManager申请一个Application，然后RM将该应用程序的资源路径返回给YarnRunner，接着程序向HDFS提交资源，即Job.split、Job.xml和jar包。资源提交完成后YarnRunner向RM申请运行MrApplicationMaster，RM便将用户的请求转化成一个task并放入队列里。根据先进先出原则，当轮到自己且自己有足够的资源，NodeManager便领取到任务。之后该NodeManager创建一个容器Container，里面放MRAppMaster。然后MRAppmaster读取Job.split知道切片数量，便向RM申请对应数量的MapTask。RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器（也可以是同一个），里面放MapTask。接着MrAppMaster向那两个接收到任务的NodeManager（或者是一个）发送job.xml和jar包，这两个MapTask便启动了起来，对数据进行分区排序最后写入磁盘。当所有MapTask运行完毕后，即将信息写入磁盘后，MrAppMaster便向RM申请运行ReduceTask，同样是先创建容器Container再创建ReduceTask。ReduceTask从MapTask拉取对应分区的数据开始处理，当所有的ReduceTask都运行完毕，MrAppMaster便会向RM申请释放资源，即刚刚产生的所有东西包括自己全都释放掉。

3. 作业提交全过程

上面的Yarn工作机制相当于是Yarn和MapReduce的关系，而这里的作业提交过程就是Yarn和HDFS与MapReduce三者的关系。

在这里插入图片描述

实际上大体和上面的Yarn工作机制差不多，之不多在开始和结束多了与HDFS的交互，即输入输出。

4. Yarn调度器和调度算法

目前，Hadoop作业调度器主要有三种：先进先出调度器（FIFO）、容量调度器（Capacity Scheduler）和公平调度器（Fair Scheduler）。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。

4.1先进先出调度器（FIFO）

FIFO调度器（First In First Out）：单队列，根据提交作业的先后顺序，先来先服务。

在这里插入图片描述

没啥好说的，先到先得嘛，很容易。但是由于它不支持多队列，所以在生产环境中用的少。

4.2 容量调度器（Capacity Scheduler）

Capacity Scheduler是Yahoo开发的多用户调度器，默认队列的资源分配方式为FIFO。

在这里插入图片描述

调度算法：

在这里插入图片描述

4.3 公平调度器（Fair Scheduler）

Fair Schedulere是Facebook开发的多用户调度器，默认队列的资源分配方式为FAIR。

在这里插入图片描述

可以发现，容量调度器有的公平调度器全都有，而且公平调度器还有容量调度器没有的。由于容量调度器的队列的资源分配方式默认是FIFO，如果将公平资源调度器的队列的资源分配方式设置成FIFO，那么此时公平调度器就相当于是容量调度器。

缺额： 某一时刻一个作业应获资源和实际获取资源的差距。

调度算法：

在这里插入图片描述

总之，公平调度器只办三件事：公平，公平，还是tmd公平！

5. Yarn常用命令

Yarn状态的查询，除了可以在hadoop103:8088页面查看外，还可以通过命令操作。

5.1 yarn application查看任务

列出所有Application：

yarn application -list

据Application状态过滤（状态可选择ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED）：

yarn application -list -appStates 状态

Kill掉Application：

yarn application -kill 填Application-Id

5.2 yarn logs查看日志

查询Application日志：

yarn logs -applicationId 填Application-Id

查询Container日志：

yarn logs -applicationId 填Application-Id -containerId 填Container-Id

5.3 yarn applicationattempt查看尝试运行的任务

列出所有Application尝试的列表：

yarn applicationattempt -list 填Application-Id

打印ApplicationAttemp状态：

yarn applicationattempt -status 填ApplicationAttempt-Id

5.4 yarn container查看容器

列出所有Container:：

yarn container -list 填ApplicationAttempt-Id

打印Container状态：

yarn container -status 填Container-Id

注：只有在任务跑的途中才能看到container的状态

5.5 yarn node查看节点状态

列出所有节点：

yarn node -list -all

5.6 yarn rmadmin更新配置

加载队列配置：

yarn rmadmin -refreshQueues

5.7 yarn queue查看队列

打印队列信息：

yarn queue -status 队列名称

6. Yarn生产环境核心参数

在这里插入图片描述

Yarn案例实操

Yarn的Tool接口案例

之前我们将自己写的wordcount打包成jar包并上传到集群，在hdfs上使用。但是那有一个问题，所有的参数都固定死了，不能动态更改参数，很不方便。所以我们需要让自己写的程序也可以动态修改参数。

于是，它来了——Yarn的Tool接口。

新建Maven项目YarnDemo并增加下列代码到pom.xml：

	<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.3.6</version>
        </dependency>
    </dependencies>

创建类WordCount并实现Tool接口：

package com.sunhao.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;

import java.io.IOException;

public class WordCount implements Tool {

    private Configuration conf;

    @Override
    public int run(String[] strings) throws Exception {

        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path(strings[0]));
        FileOutputFormat.setOutputPath(job, new Path(strings[1]));

        return job.waitForCompletion(true) ? 0 : 1;
    }

    @Override
    public void setConf(Configuration configuration) {
        this.conf = configuration;
    }

    @Override
    public Configuration getConf() {
        return conf;
    }

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        private Text k = new Text();
        private IntWritable v = new IntWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {

            String line = value.toString();

            String[] words = line.split(" ");

            for (String word : words) {
                k.set(word);
                context.write(k, v);
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

        private IntWritable v = new IntWritable();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable value : values) {
                sum += value.get();
            }

            v.set(sum);
            context.write(key, v);

        }
    }
}

新建WordCountDriver：

package com.sunhao.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.util.Arrays;

public class WordCountDriver {

    private static Tool tool;

    public static void main(String[] args) throws Exception {

        // 1. 创建配置文件
        Configuration conf = new Configuration();

        // 2. 判断是否有tool接口
        switch (args[0]) {
            case "wordcount":
                tool = new WordCount();
                break;
            default:
                throw new RuntimeException("No such tool：" + args[0]);
        }

        // 3. 用Tool执行程序
        // Arrays.copyOfRange 将老数组的元素放到新数组里面 因为第三个参数要求是string[]所以只能使用拷贝的方法传一个过去
        // 为什么这里从1开始复制，因为程序能走到这里说明已经通过了前面的检验，所以args[0]一定是wordcount，所以后面两个分别是输入输出路径
        // 此时问题又来了，如果在wordcount后面加上-D参数呢，这个参数不会被当做输入路径吗？
        // 因为ToolRunner.run方法会自动识别-D参数并进行相应处理，所以相当于吸收了，故args[1]和args[2]一定是输入输出路径
        // Arrays.copyOfRange是左闭右开的，所以length为3那么只会拷贝到2，不会数组越界
        int run = ToolRunner.run(conf, tool, Arrays.copyOfRange(args, 1, args.length));

        System.exit(run);
    }
}

之后打包成jar包，上传至集群。

这样便实现了动态传参，此外若写的不是wordcount也会报错。

さとみ大好き

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
尚硅谷hadoop3.x-Yarn

ReduceTask从MapTask拉取对应分区的数据开始处理，当所有的ReduceTask都运行完毕，MrAppMaster便会向RM申请释放资源，即刚刚产生的所有东西包括自己全都释放掉。可以发现，容量调度器有的公平调度器全都有，而且公平调度器还有容量调度器没有的。由于容量调度器的队列的资源分配方式默认是FIFO，如果将公平资源调度器的队列的资源分配方式设置成FIFO，那么此时公平调度器就相当于是容量调度器。实际上大体和上面的Yarn工作机制差不多，之不多在开始和结束多了与HDFS的交互，即输入输出。
复制链接

扫一扫