yarn001

最新推荐文章于 2024-07-22 17:20:23 发布

Wingsdream

最新推荐文章于 2024-07-22 17:20:23 发布

阅读量78

点赞数

文章标签： yarn mapreduce 前端

本文链接：https://blog.csdn.net/qq_43382750/article/details/120877744

版权

一丶习题回顾，注意点

   工具类的编写和使用

   分布式计算当中的沙箱机制 sandbox

保障数据安全的一种机制，例：在hdfs读取分布式中的文件时，config需要作为参数传入，该任务的所有操作权限均在该目录中完成。

  MapReduce中迭代器注意不要重复使用，会造成数据错误或报错。   

   设置压缩格式，代码中，shell中

   设置reduce数量，shell中设置

   设置Partition分组条件，代码中设置或shell中设置

   MR应用之读取外部配置文件-Configuration传递

实现基于input_filter目录中文件数据的一次排序，即Map和Reduce的读入和归约处理。
将本地文件whitelist.txt传给Driver类，读取到该文件内容txtContent
将txtContent通过Configuration的set方法传递给map和reduce任务
在map任务中通过Configuration对象的get方法获取传递过来的值txtContent
将txtContent解析成Set对象，对map任务中的map方法进行过滤输出
由于map端已经做了过滤，reduce端将不需任何改变
二丶Yarn初识

  1.什么是yarn

        资源调度管理器

         JobTracker问题

   2.特点

        解耦设计

        成本降低，一个集群

        数据共享一致

       避免单点故障，横向资源扩展

Yarn架构设计

       Yarn设计的核心思想是将JobTracker的两个主要职责：资源管理和任务调度管理，分别交给两个角色负责。一个是全局的ResourceManager，一个是每个应用中唯一的ApplicationMaster。

      仍然 Master/Slave结构

运行流程

      用户交互client

      集群全局资源调度

      代理节点

       container

      详解：（8步）

调度策略

     像搜索引擎的排序

     v1调度方式：先进先出，有多少资源干多少活，

      Yarn双层调度架构：精简化的集中资源调度器

      常用调度策略，（众口难调，很难有一个完美的策略）

      1.FIFO（先进先出）

     2.capacity scheduler 容器调度器

     3.Fair scheduler 公平调度器

Wingsdream

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
yarn001

一丶习题回顾，注意点工具类的编写和使用分布式计算当中的沙箱机制 sandbox保障数据安全的一种机制，例：在hdfs读取分布式中的文件时，config需要作为参数传入，该任务的所有操作权限均在该目录中完成。 MapReduce中迭代器注意不要重复使用，会造成数据错误或报错。设置压缩格式，代码中，shell中设置reduce数量，shell中设置设置Partition分组条件，代码中设置或shell中设置 MR应用之读取外部配置文件-Con
复制链接

扫一扫