第一个参数:container分配最小内存
yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存
第二个参数:container分配最大内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
第三个参数:每个container的最小虚拟内核个数
yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数
第四个参数:每个container的最大虚拟内核个数
yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数
第五个参数:nodeManager可以分配的内存大小
yarn.nodemanager.resource.memory-mb 8192 nodemanager可以分配的最大内存大小,默认8192Mb
在我们浏览yarn的管理界面的时候会发现一个问题
我们可以在yarn-site.xml当中修改以下两个参数来改变默认值。
定义每台机器的内存使用大小
yarn.nodemanager.resource.memory-mb | 8192 |
定义每台机器的虚拟内核使用大小
yarn.nodemanager.resource.cpu-vcores | 8 |
定义交换区空间可以使用的大小(交换区空间就是讲一块硬盘拿出来做内存使用)
这里指定的是nodemanager的2.1倍
yarn.nodemanager.vmem-pmem-ratio | 2.1 |
=================================================================================
总结回顾:
尽量搞定:
1、共同好友:求取哪些人两两之间有共同好友,需要使用两个mapreduce来实现
2、倒排索引的建立 某个单词在文章当中出现了多少次
3、自定义inputFormat合并小文件 合并小文件成sequenceFile 使用SequenceFileOutputFormat来将我们的文件输出成sequenceFile
4、自定义outputformat 将我们的数据输出到不同的目录下面去
5、分组求取topN 自定义groupingComparator实现我们分组求TopN
mapreduce的其他补充:了解
mapreduce的参数优化:随便背两个
yarn资源调度: 三种调度器 得要知道