Hadoop的参数调优

最新推荐文章于 2023-03-16 20:50:28 发布

VIP文章吗达拉

最新推荐文章于 2023-03-16 20:50:28 发布

阅读量332

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_42656794/article/details/100138427

版权

1，Hdfs的参数调优hdfs-site.xml
①dfs.namenode.handler.count=20log2(Cluster Size)
namenode有一个工作线程池，用来处理不同datanode的并发心跳以及客户端并发的元数据操作。设置该值为集群大小的自然对数乘以20.即如果是8台，就是203=60
②编辑日志储存路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开，达到最低写入延迟
2，Yarn参数调优
情景描述：总共7台机器，每天几亿条数据，数据源->Flume->Kafka->HDFS->Hive
面临问题：数据统计主要用HiveSQL，没有数据倾斜，小文件已经做了合并处理，开启的JVM重用，而且IO没有阻塞，内存用了不到50%。但是还是跑的非常慢，而且数据量洪峰过来时，整个集群都会宕掉。基于这种情况有没有优化方案。
内存利用率不够。这个一般是Yarn的2个配置造成的，单个任务可以申请的最大内存大小，和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。
（a）yarn.nodemanager.resource.memory-mb
表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。
（b）yarn.scheduler.maximum-allocation-mb
单个任务可申请的最多物理内存量，默认是8192（MB࿰

最低0.47元/天解锁文章

吗达拉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hadoop的参数调优

1，Hdfs的参数调优hdfs-site.xml①dfs.namenode.handler.count=20log2(Cluster Size)namenode有一个工作线程池，用来处理不同datanode的并发心跳以及客户端并发的元数据操作。设置该值为集群大小的自然对数乘以20.即如果是8台，就是203=60②编辑日志储存路径dfs.namenode.edits.dir设置与镜像文件存储路...
复制链接

扫一扫