hadoop调优

最新推荐文章于 2021-07-07 22:34:21 发布

bigdata_wangzhe

最新推荐文章于 2021-07-07 22:34:21 发布

阅读量148

点赞数 1

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/bigdata_wangzhe/article/details/114906537

版权

本文详细介绍了Hadoop集群的调优配置，包括dfs.replication数据块副本数、dfs.block.size数据块大小、dfs.datanode.balance.bandwidthPerRegionServer的带宽限制以及dfs.datanode.failed.volumes.tolerated允许的磁盘故障数等关键参数，旨在提升HDFS的稳定性和效率。

摘要由CSDN通过智能技术生成

dfs.replication
数据块的副本数，默认值为3
dfs.block.size
hdfs数据块大小，默认128M，数据量大的话，可以配置高一些
dfs.datanode.balance.bandwidthPeRegionServerec
HDFS 做均衡时使用的最大带宽，默认为 1048576，即 1MB/s，对大多数千兆甚至万兆带宽的集群来说过小。不过该值可以在启动 balancer 脚本时再设置，可以不修改集群层面默认值。目前目前我们产线环境设置的是50M/s~100M/s
dfs.datanode.failed.volumes.tolerated
DN多少块损坏后停止服务,默认为0，磁盘故障是常态，可以设置为1或2，避免频繁有DN下线
dfs.datanode.max.xcieveRegionServer
datanode可以同时处理的数据传输连接数，指定在 datanode 内外传输数据使用的最大线程数。
默认4096，推荐值8192
dfs.namenode.handler.count
namenode中用于处理RPC调用的线程数。默认为10，建议值：参数的自然对数*20
python -c ‘import math ; print int(math.log(N) * 20)’
dfs.namenode.service.handler.count
用于处理 datanode 上报数据块和心跳的线程数量，与dfs.namenode.handler.count 算法一致
datanode 处理 RPC 调用的线程数
dfs.datanode.handle

最低0.47元/天解锁文章

bigdata_wangzhe

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop调优

dfs.replication数据块的副本数，默认值为3dfs.block.sizehdfs数据块大小，默认128M，数据量大的话，可以配置高一些dfs.datanode.balance.bandwidthPeRegionServerecHDFS 做均衡时使用的最大带宽，默认为 1048576，即 1MB/s，对大多数千兆甚至万兆带宽的集群来说过小。不过该值可以在启动 balancer 脚本时再设置，可以不修改集群层面默认值。目前目前我们产线环境设置的是50M/s~100M/sdfs.dat.
复制链接

扫一扫