一丶习题回顾,注意点
工具类的编写和使用
分布式计算当中的沙箱机制 sandbox
保障数据安全的一种机制,例:在hdfs读取分布式中的文件时,config需要作为参数传入,该任务的所有操作权限均在该目录中完成。
MapReduce中迭代器注意不要重复使用,会造成数据错误或报错。
设置压缩格式,代码中,shell中
设置reduce数量,shell中设置
设置Partition分组条件,代码中设置或shell中设置
MR应用之读取外部配置文件-Configuration传递
实现基于input_filter目录中文件数据的一次排序,即Map和Reduce的读入和归约处理。
将本地文件whitelist.txt传给Driver类,读取到该文件内容txtContent
将txtContent通过Configuration的set方法传递给map和reduce任务
在map任务中通过Configuration对象的get方法获取传递过来的值txtContent
将txtContent解析成Set对象,对map任务中的map方法进行过滤输出
由于map端已经做了过滤,reduce端将不需任何改变
二丶Yarn初识
1.什么是yarn
资源调度管理器
JobTracker问题
2.特点
解耦设计
成本降低,一个集群
数据共享一致
避免单点故障,横向资源扩展
Yarn架构设计
Yarn设计的核心思想是将JobTracker的两个主要职责:资源管理和任务调度管理,分别交给两个角色负责。一个是全局的ResourceManager,一个是每个应用中唯一的ApplicationMaster。
仍然 Master/Slave结构
运行流程
用户交互client
集群全局资源调度
代理节点
container
详解:(8步)
调度策略
像搜索引擎的排序
v1调度方式:先进先出,有多少资源干多少活,
Yarn双层调度架构:精简化的集中资源调度器
常用调度策略,(众口难调,很难有一个完美的策略)
1.FIFO(先进先出)
2.capacity scheduler 容器调度器
3.Fair scheduler 公平调度器