Hadoop集群与RAID磁盘阵列

Hadoop集群规范


硬盘选型
  尽管建议采用RAID(Redundant Array of Independent Disk,即磁盘阵列)作为NameNode的存储器以保护元数据,但是若将RAID作为DataNode的存储设备则不会给HDFS带来益处。HDFS所提供的节点间数据复制技术已能满足数据备份需求,无需使用RAID的垄余机制。
  此外,尽管RAID条带化技术(RAID 0)被广泛用于提升性能,但是其速度仍然比用在HDFS里的JBOD(Just a Bunch Of Disk)配置慢。JBOD在所有磁盘之间循环调度HDFS块。RAID 0的续写操作受限于磁盘阵列中最慢盘片的速度,而JBOD的磁盘操作均独立,因而平均读写速度高于最慢盘片的读写速度。需要强调的是,各个磁盘的性能在实际使用中总存在相当大的差异,即使对于相同型号的磁盘。针对某一雅虎集群的评测报告中,JBOD比RAID 0快10%;在另一测试(HDFS写吞吐量)中,JBOD比RAID 0快30%。
  最后,若JBOD配置的某一磁盘出现故障,HDFS可以忽略该磁盘,继续工作。而RAID 0的某一盘片故障会导致整个磁盘阵列不可用,进而使相应的节点失效。

总结
    NameNode建议使用RAID
    DataNode不建议使用RAID

转载于:https://www.cnblogs.com/mengyao/p/4760890.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个用于处理大规模数据的分布式计算框架,它可以在集群运行并处理大量数据。下面是Hadoop集群的安装和使用步骤: 1. 下载Hadoop安装包:你可以从官方网站下载最新版本的Hadoop安装包。 2. 解压安装包:将下载的安装包解压到你想要安装Hadoop的目录。 3. 配置Hadoop环境变量:编辑`~/.bashrc`文件,并添加以下内容: ``` export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` 4. 配置Hadoop集群:进入Hadoop安装目录的`etc/hadoop`目录,修改以下配置文件: - `hadoop-env.sh`:设置JAVA_HOME变量为JDK的安装路径。 - `core-site.xml`:配置Hadoop的核心参数,如文件系统和默认的端口号。 - `hdfs-site.xml`:配置Hadoop分布式文件系统(HDFS)的参数,如副本数量和块大小。 - `mapred-site.xml`:配置MapReduce任务执行框架的参数,如框架类型和任务调度方式。 5. 格式化HDFS:运行以下命令来格式化HDFS,这将创建必要的目录和文件: ``` hdfs namenode -format ``` 6. 启动Hadoop集群:在主节点上运行以下命令来启动Hadoop集群: ``` start-all.sh ``` 7. 验证Hadoop集群:使用以下命令检查Hadoop集群是否正常运行: - 检查HDFS状态:`hdfs dfsadmin -report` - 运行一个简单的MapReduce作业:`hadoop jar /path/to/hadoop-mapreduce-examples.jar pi <num-maps> <num-samples>` 相关问题: 1. 如何添加和管理Hadoop集群的节点? 2. 如何监控Hadoop集群的健康状态? 3.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值