Hadoop集群性能优化一

最新推荐文章于 2021-01-29 13:48:04 发布

田小雨

最新推荐文章于 2021-01-29 13:48:04 发布

阅读量3.5k

点赞数

分类专栏：大数据生态圈文章标签： hadoop 性能优化

本文链接：https://blog.csdn.net/sunlei1980/article/details/46602497

版权

本文探讨了如何提升Hadoop集群性能，包括选择合适的硬件和优化配置。介绍了机架感知的重要性，详细阐述了如何配置机架感知以避免跨机架的数据传输，从而提高性能和降低网络瓶颈。通过配置`topology.script.file.name`，确保数据块的副本分布在不同机架上，以实现更好的容错和效率。

摘要由CSDN通过智能技术生成

挺喜欢这句话：“坚持，是基于你对某件事的热爱，才能有动力坚持下去。
在学习的过程中，需要战胜自己的惰性和骄傲！”好了，下面说下如何提升
集群的性能：

在硬件方面，第一，商业硬件并不等同于低端硬件。低端机器常常使用
便宜的零部件，其故障率远高于更昂贵的机器。当用户管理几十台、上百台
甚至几千台机器时，便宜的零部件故障率更高，导致维护成本更高；第二，
不推荐使用大型数据库级别的机器，因为性价比太低了。

在相同硬件的情况下，一个配置好的的集群要比配置糟糕的集群在性能上
快数倍乃至数十倍。

首先说下对于map/reduce槽位的配置还有job对java虚拟机的配置，一般
情况下，如果NN为8核的服务器，map的数量应该配置为6，reduce的数量为2，
也就是说，NN的槽位总数相加和等于CPU的数量，同时map槽位数大概是reduce
槽位数的三倍；因为我们需要DN的计算能力强一些，因此，在服务器相同配置
的条件下，可以把map/reduce的槽位总和设置为CPU数量的2倍，同时map数是
reduce数量的3倍。

Hadoop性能优化：Hadoop机架感知实现及配置：分布式的集群通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度，并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。

具体到Hadoop集群，由于Hadoop的HDFS对数据文件的分布式存放是按照分块block存储，每个block会有多个副本(默认为3)，并且为了数据的安全和高效，所以Hadoop默认对3个副本的存放策略为：