HDFS
- hdfs block存储位置:dfs.datanode.data.dir
- fsimage存储位置:dfs.namenode.name.dir
- edits log存储位置:dfs.namenode.edits.dir
- DN每块磁盘不能被hdfs使用的空间:dfs.datanode.du.reserved
默认10GB,一般建议单盘空间25% - bolck块大小:dfs.blocksize
- bolck副本数:dfs.replication
- fs.trash.interval:回收站清理时间周期,默认1天
- NN进程最大并发数,可以同时与多少个DN通信dfs.namenode.handler.count。Hadoop默认值10,CDH默认值30,建议ln(X)*20,X为HDFS节点数。
- DN磁盘坏了多少块,这个DN就下线:dfs.datanode.failed.volumes.tolerated。CDH默认0,意思坏多少块盘都不下线
10.DN支持cache的大小:dfs.datanode.max.locked.memory ,CDH默认4GB,0代表禁用
11.HDFS文件压缩格式的支持:io.compression.codecs
Yarn
- 日志汇聚功能:yarn.log-aggregation-enable
- 日志汇聚存储hdfs路径:yarn.nodemanager.remote-app-log-dir
- 日志写本地路径:yarn.nodemanager.log-dirs
应用程序日志写本地路径,如果日志汇聚功能打开,应用完成后这些文件就会被删除 - 应用缓存文件存储路径:yarn.nodemanager.local-dirs
MR、Spark计算中间过程产生的临时落盘数据存储位置,有时可能因为这个磁盘空间不足,导致应用报错
MapReduce
- mapreduce.job.reduce.slowstart.completemaps:CDH默认0.8,map整体进度完成多少百分比后,开始初始化reduce
- mapreduce.reduce.shuffle.parallelcopies:reducer进程最大并发打开线程数,来和mapper通信,CDH默认10,建议(ln(X)*4)/10,X为集群节点数
- mapreduce.map.speculative:预测执行,默认值False,推荐False
- mapreduce.reduce.speculative:预测执行,默认值False,推荐False