一.分组分区的区别
- 分区靠前:将键值对分到不同的文件,文件拆分
- 分组是同一个文件内部,键的处理,相同key
二.MapReduce的运行机制
三.Yarn
- 资源管理器,提供统一的资源管理和调度
- yarn的执行过程
- yarn的调度器:多个任务,资源划分
3.1 FIFO Scheduler(队列调度器):任务提交的先后顺序
3.2 Capacity Scheduler(容量调度器Apache):多个组织共享集群,配置vim yarn-site.xml
configuration.set(“队列位置”)
<configuration>
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>prod,dev</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.queues</name>
<value>mapreduce,spark</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.prod.capacity</name>
<value>40</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.capacity</name>
<value>60</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
<value>80</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.mapreduce.capacity</name>
<value>50</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.spark.capacity</name>
<value>50</value>
</property>
</configuration>
3.3Fair Scheduler(公平调度器CDH):只有一个job独占,当有第二个进来就平分
- yarn的常用参数设置
设置container分配最小内存
yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存
设置container分配最大内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
设置每个container的最小虚拟内核个数
yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数
设置每个container的最大虚拟内核个数
yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数
设置NodeManager可以分配的内存大小
yarn.nodemanager.resource.memory-mb 8192 nodemanager 可以分配的最大内存大小,默认8192Mb
定义每台机器的内存使用大小
yarn.nodemanager.resource.memory-mb 8192
定义交换区空间可以使用的大小
交换区空间就是讲一块硬盘拿出来做内存使用,这里指定的是nodemanager的2.1倍
yarn.nodemanager.vmem-pmem-ratio 2.1
- Hadoop3.x
5.1 通用性
5.2支持多个namenode:一个active多个
5.3对MapReduce中的shuffle进行优化
5.4纠删码:block经过算法产生一个纠删码,存到hdfs,数据丢失可以根据纠删码恢复。
5.5默认端口更改:namenode ports 50070–>9870,8020–>9820,50470–>9871
Secondary NN ports: 50091 --> 9869,50090 --> 9868
Datanode ports: 50020 --> 9867, 50010–> 9866, 50475 --> 9865, 50075 --> 9864
Kms server ports: 16000 --> 9600 (原先的16000与HMaster端口冲突)
5.6yarn资源类型:增加用户可定义资源类型