大数据集群巡检，最佳实践记录

最新推荐文章于 2024-06-20 15:48:33 发布

编程者说

最新推荐文章于 2024-06-20 15:48:33 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shipfei_csdn/article/details/115304022

版权

大数据专栏收录该内容

6 篇文章

订阅专栏

公司使用的大数据集群是Cloudera，定期巡检，还是查出不少问题，后面进行优化。mark下供大家参考。发现主要的几个问题如下，

1. HDFS 小文件过多

小文件问题是目前HDFS上存在的最大问题。可以使用hadoop fs -count命令，简单统计下文件数量较多的目录。

小文件很多是临时文件，建议定期清理。并检查业务逻辑，主要是什么导致的小文件过多，看能否通过修改处理逻辑来避免。

2. DNS域名解析不全

很多新加的边缘节点，没有配置全部的host，导致集群内部解析不全。虽不影响程序运行，但是建议配置完全的host。

3. HDFS块计数报警过于频繁

块计数报警：默认hdfs的datanode的块超过50W就会触发对应块计数报警，基于集群的现状，建议将报警阈值调整到100W即可。

4. Namenode的堆内存设置过小

Namenode的堆内存设置过小，导致GC频繁，根据机器内存情况，建议适当增大至16G。

5. Hive中有些表的分区过多

Hive中有些表的分区过多，超过1000。分区过多会导致查询性能下降，建议避免过多分区。

6. 内存超配

集群内部有内存超配的现象，就是分配的内存超过最大内存的阈值。这样会导致资源竞争，或者任务误杀的情况发生。建议任务合理分配，不要超过最大内存。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。