挺喜欢这句话:“坚持,是基于 你对某件事的热爱,才能有动力坚持下去。
在学习的过程中,需要战胜自己的惰性和骄傲!”好了,下面说下如何提升
集群的性能:
在硬件方面,第一,商业硬件并不等同于低端硬件。低端机器常常使用
便宜的零部件,其故障率远高于更昂贵的机器。当用户管理几十台、上百台
甚至几千台机器时,便宜的零部件故障率更高,导致维护成本更高;第二,
不推荐使用大型数据库级别的机器,因为性价比太低了。
在相同硬件的情况下,一个配置好的的集群要比配置糟糕的集群在性能上
快数倍乃至数十倍。
首先说下对于map/reduce槽位的配置还有job对java虚拟机的配置,一般
情况下,如果NN为8核的服务器,map的数量应该配置为6,reduce的数量为2,
也就是说,NN的槽位总数相加和等于CPU的数量,同时map槽位数大概是reduce
槽位数的三倍;因为我们需要DN的计算能力强一些,因此,在服务器相同配置
的条件下,可以把map/reduce的槽位总和设置为CPU数量的2倍,同时map数是
reduce数量的3倍。
Hadoop性能优化:Hadoop机架感知实现及配置:分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。
具体到Hadoop集群,由于Hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block会有多个副本(默认为3),并且为了数据的安全和高效,所以Hadoop默认对3个副本的存放策略为:
1.在本地机器的hdfs目录下存储一个block ;
<