bigdata_Yarn

最新推荐文章于 2021-12-23 10:00:07 发布

JIE_ling8

最新推荐文章于 2021-12-23 10:00:07 发布

阅读量117

点赞数

分类专栏：总结文章标签： yarn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JIE_ling8/article/details/120866666

版权

总结专栏收录该内容

56 篇文章 1 订阅

订阅专栏

一丶习题回顾，注意点

工具类的编写和使用

分布式计算当中的沙箱机制 sandbox

保障数据安全的一种机制，例：在hdfs读取分布式中的文件时，config需要作为参数传入，该任务的所有操作权限均在该目录中完成。

MapReduce中迭代器注意不要重复使用，会造成数据错误或报错。

设置压缩格式，代码中，shell中

设置reduce数量，shell中设置

设置Partition分组条件，代码中设置或shell中设置

MR应用之读取外部配置文件-Configuration传递

实现基于input_filter目录中文件数据的一次排序，即Map和Reduce的读入和归约处理。
将本地文件whitelist.txt传给Driver类，读取到该文件内容txtContent
将txtContent通过Configuration的set方法传递给map和reduce任务
在map任务中通过Configuration对象的get方法获取传递过来的值txtContent
将txtContent解析成Set对象，对map任务中的map方法进行过滤输出
由于map端已经做了过滤，reduce端将不需任何改变

二丶Yarn初识

1.什么是yarn

资源调度管理器

JobTracker问题

2.特点

解耦设计

成本降低，一个集群

数据共享一致

避免单点故障，横向资源扩展

Yarn架构设计

Yarn设计的核心思想是将JobTracker的两个主要职责：资源管理和任务调度管理，分别交给两个角色负责。一个是全局的ResourceManager，一个是每个应用中唯一的ApplicationMaster。

仍然 Master/Slave结构

运行流程

用户交互client

集群全局资源调度

代理节点

container

详解：（8步）

调度策略

像搜索引擎的排序

v1调度方式：先进先出，有多少资源干多少活，

Yarn双层调度架构：精简化的集中资源调度器

常用调度策略，（众口难调，很难有一个完美的策略）

1.FIFO（先进先出）

2.capacity scheduler 容器调度器

3.Fair scheduler 公平调度器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bigdata_Yarn

一丶习题回顾，注意点工具类的编写和使用分布式计算当中的沙箱机制sandbox 保障数据安全的一种机制，例：在hdfs读取分布式中的文件时，config需要作为参数传入，该任务的所有操作权限均在该目录中完成。 MapReduce中迭代器注意不要重复使用，会造成数据错误或报错。设置压缩格式，代码中，shell中设置reduce数量，shell中设置设置Partition分组条件，代码中设置或s...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。