day13

一.分组分区的区别

  1. 分区靠前:将键值对分到不同的文件,文件拆分
  2. 分组是同一个文件内部,键的处理,相同key
    在这里插入图片描述

二.MapReduce的运行机制

在这里插入图片描述
在这里插入图片描述

三.Yarn

  1. 资源管理器,提供统一的资源管理和调度
  2. yarn的执行过程
    在这里插入图片描述
  3. yarn的调度器:多个任务,资源划分
    3.1 FIFO Scheduler(队列调度器):任务提交的先后顺序
    在这里插入图片描述
    3.2 Capacity Scheduler(容量调度器Apache):多个组织共享集群,配置vim yarn-site.xml
    configuration.set(“队列位置”)
<configuration>
 <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>prod,dev</value>
  </property>
 <property>
    <name>yarn.scheduler.capacity.root.dev.queues</name>
    <value>mapreduce,spark</value>
  </property>
    <property>
    <name>yarn.scheduler.capacity.root.prod.capacity</name>
    <value>40</value>
  </property>
    <property>
    <name>yarn.scheduler.capacity.root.dev.capacity</name>
    <value>60</value>
  </property>
    <property>
    <name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
    <value>80</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.dev.mapreduce.capacity</name>
    <value>50</value>
  </property>
   <property>
    <name>yarn.scheduler.capacity.root.dev.spark.capacity</name>
    <value>50</value>
  </property>
</configuration>

在这里插入图片描述
3.3Fair Scheduler(公平调度器CDH):只有一个job独占,当有第二个进来就平分
在这里插入图片描述

  1. yarn的常用参数设置
设置container分配最小内存
yarn.scheduler.minimum-allocation-mb 1024  给应用程序container分配的最小内存
设置container分配最大内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
设置每个container的最小虚拟内核个数
yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数
设置每个container的最大虚拟内核个数
yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数
设置NodeManager可以分配的内存大小
yarn.nodemanager.resource.memory-mb 8192 nodemanager 可以分配的最大内存大小,默认8192Mb
定义每台机器的内存使用大小
yarn.nodemanager.resource.memory-mb 8192
定义交换区空间可以使用的大小
交换区空间就是讲一块硬盘拿出来做内存使用,这里指定的是nodemanager的2.1倍
yarn.nodemanager.vmem-pmem-ratio 2.1  
  1. Hadoop3.x
    5.1 通用性
    5.2支持多个namenode:一个active多个在这里插入图片描述

5.3对MapReduce中的shuffle进行优化
5.4纠删码:block经过算法产生一个纠删码,存到hdfs,数据丢失可以根据纠删码恢复。在这里插入图片描述
5.5默认端口更改:namenode ports 50070–>9870,8020–>9820,50470–>9871
Secondary NN ports: 50091 --> 9869,50090 --> 9868
Datanode ports: 50020 --> 9867, 50010–> 9866, 50475 --> 9865, 50075 --> 9864
Kms server ports: 16000 --> 9600 (原先的16000与HMaster端口冲突)
5.6yarn资源类型:增加用户可定义资源类型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值