集群的硬件:一般使用多核CPU和多磁盘,充分利用磁盘强大功能。
运行在hadoop的datanode和YARN节点管理器的典型机器
处理器:两个六核/八核的3GHz CPU
内存:6~512GB RAM
存储器:1224x14TB SATA 硬盘
网络:千兆以太网
为何不使用RAID?
RAID: namenode保护元数据的存储器,即磁盘阵列,hdfs节点间的复制技术已经代替RAID 的功能。
RAID的条带化技术用于提升性能,速度比hdfs中的JBOD慢,JBOD在所有磁盘间循环调度HDFS块。
RAID的弊端:读写速度受限于磁盘阵列中响应最慢的盘片的速度。如果某一盘片发生故障会导致整个磁盘阵列不可用。
JBOD的磁盘操作是独立的,平均读写的速度高于响应最慢的盘片的速度。配置的磁盘发生故障,HDFS可以忽略该磁盘,继续工作。
namenode的作用:在内存中保存整个命名空间的所有文件元数据和块元数据(内存需要很大)。维护所有文件数据块的引用。
高可用:在分开的机器上运行master,主master发生故障,在不同硬件上的备机会接替主机,hdfs中的secondarynamenode检查点功能由备机完成,所以不需要同时运行备机和主机的secondarynamenode。
namenode使用网络位置来确定在哪里放置块的复本,mapreduce调度器会根据网络位置来查找最近的复本,作为map任务的输入。
集群的构建和安装:Hadoop在unix和windows操作系统都可以运行,下载安装包,本地目录解压,hadoop用户的home目录可能挂载在NFS上,Hadoo
第十章 Hadoop的搭建以及相关知识点总结
最新推荐文章于 2021-03-10 22:01:23 发布