yarn001

一丶习题回顾,注意点

   工具类的编写和使用

   分布式计算当中的沙箱机制 sandbox

保障数据安全的一种机制,例:在hdfs读取分布式中的文件时,config需要作为参数传入,该任务的所有操作权限均在该目录中完成。

  MapReduce中迭代器注意不要重复使用,会造成数据错误或报错。   

   设置压缩格式,代码中,shell中

   设置reduce数量,shell中设置

   设置Partition分组条件,代码中设置或shell中设置

   MR应用之读取外部配置文件-Configuration传递

实现基于input_filter目录中文件数据的一次排序,即Map和Reduce的读入和归约处理。
将本地文件whitelist.txt传给Driver类,读取到该文件内容txtContent
将txtContent通过Configuration的set方法传递给map和reduce任务
在map任务中通过Configuration对象的get方法获取传递过来的值txtContent
将txtContent解析成Set对象,对map任务中的map方法进行过滤输出
由于map端已经做了过滤,reduce端将不需任何改变
二丶Yarn初识

  1.什么是yarn

        资源调度管理器

         JobTracker问题

   2.特点

        解耦设计

        成本降低,一个集群

        数据共享一致

       避免单点故障,横向资源扩展

Yarn架构设计

       Yarn设计的核心思想是将JobTracker的两个主要职责:资源管理和任务调度管理,分别交给两个角色负责。一个是全局的ResourceManager,一个是每个应用中唯一的ApplicationMaster。

      仍然 Master/Slave结构

运行流程

      用户交互client

      集群全局资源调度

      代理节点

       container

      详解:(8步)

调度策略

     像搜索引擎的排序

     v1调度方式:先进先出,有多少资源干多少活,

      Yarn双层调度架构:精简化的集中资源调度器

      常用调度策略,(众口难调,很难有一个完美的策略)

      1.FIFO(先进先出)

     2.capacity scheduler 容器调度器

     3.Fair scheduler 公平调度器
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值