bigdata_Yarn

一丶习题回顾,注意点

       工具类的编写和使用

       分布式计算当中的沙箱机制 sandbox

  保障数据安全的一种机制,例:在hdfs读取分布式中的文件时,config需要作为参数传入,该任务的所有操作权限均在该目录中完成。 

      MapReduce中迭代器注意不要重复使用,会造成数据错误或报错。   

       设置压缩格式,代码中,shell中

       设置reduce数量,shell中设置

       设置Partition分组条件,代码中设置或shell中设置

       MR应用之读取外部配置文件-Configuration传递

  • 实现基于input_filter目录中文件数据的一次排序,即Map和Reduce的读入和归约处理。
  • 将本地文件whitelist.txt传给Driver类,读取到该文件内容txtContent
  • 将txtContent通过Configuration的set方法传递给map和reduce任务
  • 在map任务中通过Configuration对象的get方法获取传递过来的值txtContent
  • 将txtContent解析成Set对象,对map任务中的map方法进行过滤输出
  • 由于map端已经做了过滤,reduce端将不需任何改变

二丶Yarn初识

      1.什么是yarn

            资源调度管理器

             JobTracker问题

       2.特点

            解耦设计

            成本降低,一个集群

            数据共享一致

           避免单点故障,横向资源扩展

Yarn架构设计

           Yarn设计的核心思想是将JobTracker的两个主要职责:资源管理和任务调度管理,分别交给两个角色负责。一个是全局的ResourceManager,一个是每个应用中唯一的ApplicationMaster。

          仍然 Master/Slave结构

运行流程

          用户交互client

          集群全局资源调度

          代理节点

           container

          详解:(8步)

调度策略

         像搜索引擎的排序

         v1调度方式:先进先出,有多少资源干多少活,

          Yarn双层调度架构:精简化的集中资源调度器

          常用调度策略,(众口难调,很难有一个完美的策略)

          1.FIFO(先进先出)

         2.capacity scheduler 容器调度器

         3.Fair scheduler 公平调度器

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值