-
dfs.replication
数据块的副本数,默认值为3 -
dfs.block.size
hdfs数据块大小,默认128M,数据量大的话,可以配置高一些 -
dfs.datanode.balance.bandwidthPeRegionServerec
HDFS 做均衡时使用的最大带宽,默认为 1048576,即 1MB/s,对大多数千兆甚至万兆带宽的集群来说过小。不过该值可以在启动 balancer 脚本时再设置,可以不修改集群层面默认值。 目前目前我们产线环境设置的是50M/s~100M/s -
dfs.datanode.failed.volumes.tolerated
DN多少块损坏后停止服务,默认为0,磁盘故障是常态,可以设置为1或2,避免频繁有DN下线 -
dfs.datanode.max.xcieveRegionServer
datanode可以同时处理的数据传输连接数,指定在 datanode 内外传输数据使用的最大线程数。
默认4096,推荐值8192 -
dfs.namenode.handler.count
namenode中用于处理RPC调用的线程数。默认为10,建议值:参数的自然对数*20
python -c ‘import math ; print int(math.log(N) * 20)’ -
dfs.namenode.service.handler.count
用于处理 datanode 上报数据块和心跳的线程数量,与dfs.namenode.handler.count 算法一致 -
datanode 处理 RPC 调用的线程数
dfs.datanode.handler.count
datanode中用于RPC调用的线程数,默认为3。可适当增加这个值提升datanode RPC服务的并发度,
线程数的提高将增加datanode内存需求,不宜过度调整这个数值。产线设置的为10 -
dfs.datanode.max.xcieveRegionServer
最大传输线程数,指定在datanode内外传输数据使用的最大线程数 -
读写数据时的缓存大小
io.file.buffer.size
设定在读写数据时的缓存大小,应该为硬件分页大小的2倍 -
dfs.replication
数据块的副本数,默认值为3 -
dfs.block.size
hdfs数据块大小,默认128M,数据量大的话,可以配置高一些 -
dfs.datanode.balance.bandwidthPeRegionServerec
HDFS 做均衡时使用的最大带宽,默认为 1048576,即 1MB/s,对大多数千兆甚至万兆带宽的集群来说过小。不过该值可以在启动 balancer 脚本时再设置,可以不修改集群层面默认值。 目前目前我们产线环境设置的是50M/s~100M/s -
dfs.datanode.failed.volumes.tolerated
DN多少块损坏后停止服务,默认为0,磁盘故障是常态,可以设置为1或2,避免频繁有DN下线 -
dfs.datanode.max.xcieveRegionServer
datanode可以同时处理的数据传输连接数,指定在 datanode 内外传输数据使用的最大线程数。
默认4096,推荐值8192 -
dfs.namenode.handler.count
namenode中用于处理RPC调用的线程数。默认为10,建议值:参数的自然对数*20
python -c ‘import math ; print int(math.log(N) * 20)’ -
dfs.namenode.service.handler.count
用于处理 datanode 上报数据块和心跳的线程数量,与dfs.namenode.handler.count 算法一致 -
datanode 处理 RPC 调用的线程数
dfs.datanode.handler.count
datanode中用于RPC调用的线程数,默认为3。可适当增加这个值提升datanode RPC服务的并发度,
线程数的提高将增加datanode内存需求,不宜过度调整这个数值。产线设置的为10 -
dfs.datanode.max.xcieveRegionServer
最大传输线程数,指定在datanode内外传输数据使用的最大线程数 -
读写数据时的缓存大小
io.file.buffer.size
设定在读写数据时的缓存大小,应该为硬件分页大小的2倍
hadoop调优
最新推荐文章于 2021-07-07 22:34:21 发布