RAID vs HDFS
一,定义:
RAID:全称是(Redundant Arrays of independent Disks,DAID)叫磁盘阵列:有独立磁盘构成的具有冗余能力的阵列的意思。
raid通俗的说就是有很多价格较合理的磁盘,组成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统的效能陈RAID技术。
HDFS:这个全称是Hadoop分布式文件系统。HDFS有着高容错性(fault-tolerant),并且设计用来不是在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,非常的使用超大数据集(large data set)的应用程序。
二,RAID有什么?
RAID(廉价磁盘冗余阵列)技术主要是为了改善磁盘的访问延迟,增强磁盘的可用
性和容错能力。目前服务器级别的计算机都支持插入多块磁盘(8块或者更多),通过使
用RAID技术,实现数据在多块磁盘上的并发读写和数据备份。
我们常用RAID技术有以下几种,
我们假设服务器有N块磁盘。
RAID0---读写速度极快
数据在从内存缓冲区写入磁盘时,根据磁盘数量将数据分成N份,这些数据同时并发写入N块磁盘.使得数据整体写入速度是一块磁盘的N倍。读取时也一样,因此:
优点:具有极快的数据读写速度。
缺点:但是RAIDO不做数据备份,N块磁盘中只要有一块损坏,数据完整性就被破坏,所有磁盘的数据都会损坏。
RAID1---可靠性极高
数据在写入磁盘时,将一份数据同时写入两块磁盘,这样任何一块磁盘损坏都不会导致数据丢失,插入一块新磁盘就可以通过复制数据的方式自动修复,具有极高的可靠性。
RAID10---兼raid0 和raid1 优点
结合RAIDO和RAID!两种方案,将所有磁盘平均分成两份,数据同时在两份磁盘写入,相当于RAID1,但是在每一份磁盘里面的N/2块磁盘上,利用RAID0技术并发读写,既提高可靠性又改善性能,不过RA1D10的磁盘利用率较低,有一半的磁盘用来写备份数据。
RA1D3
一般情况下,一台服务器上不会出现同时损坏两块磁盘的情况,在只损坏一块磁盘的情况下,如果能利用其他磁盘的数据恢复损坏磁盘的数据,这样在保证可靠性和性能的同时,磁盘利用率也得到大幅提升。在数据写入磁盘的时候,将数据分成N--1份,并发写入N--l块磁盘,并在第N块磁盘记录校验数据,任何一块磁盘损坏(包括校验数据磁盘),都可以利用其他N--1块磁盘的数据修复。
但是在数据修改较多的场景中,修改任何磁盘数据都会导致第N块磁盘重写校验数
据,频繁写入的后果是第N块磁盘比其他磁盘容易损坏,需要频繁更换,所以RAID3很
少在实践中使用。
RA1D5
相比RAID3,方案RAID5被更多地使用。
RA1D5和RAID3很相似,但是校验数据不是写入第N块磁盘,而是螺旋式地写入所这样校验数据的修改也被平均到所有磁盘上,避免RAID3频繁写坏一块磁盘
RAID6
如果数据需要很高的可靠性,在出现同时损坏两块磁盘的情况下(或者运维管理水平比较落后,坏了一块磁盘但是迟迟没有更换,导致又坏了一块磁盘),仍然需要修复数据,这时候可以使用RAID6。
RAID6和RAIDS类似,但是数据只写入N--2块磁盘,并螺旋式地在两块磁盘中写入校验信息(使用不同算法生成)。在相同磁盘数目(N)的情况下,各种RAID技术的对比如下:
三,有了RAID,为什么还要HDFS?
RAID技术可以通过硬件实现,比如专用的RAID卡或者主板直接支持,也可以通过软件实现。RAID技术在传统关系数据库及文件系统中应用比较广泛,但是在大型网站比较喜欢使用的NoSQL,以及分布式文件系统中,RAID技术却遭到冷落。例如在HDFs(Hadoop分布式文件系统)中,系统在整个存储集群的多台服务器上进行数据并发读写和备份,可以看作在服务器集群规模上实现了类似RAID的功能,因此不需要磁盘RAID。
HDFS原理:
HDFS的原理是以块(Block)为单位管理文件内容,一个文件被分割成若干个Block,当应用程序写文件时,每写完一个Block,HDFS就将其自动复制到另外两台机器上,保证每个Block有三个副本,即使有两台服务器宕机,数据依然可以访问,相当于实现了RAIDI的数据复制功能。当对文件进行处理计算时,通过MapReduce并发计算任务框架,可以启动多个计算子任务(MapReduceTask),同时读取文件的多个Block,并发处理,相当于实现了RAIDO的并发访问功能。HDFS架构如图:
在HDFS中有两种垂要的服务器角色:NameNode(名字服务节点)和DataNode(数据存储节点)。NameN0de在整个HDFS中只部署一个实例,提供元数据服务,相当于操作系统中的文件分配表(FAT),管理文件名Block的分配,维护整个文件系统的目录树结构。DataNode则部署在HOFs集群中其他所有服务器上,提供真正的数据存储服务:和操作系统一样,HDFS对数据存储空间的铃理以数据块(Block)为单位,只是比操作系统中的数据块(512字节)要大得多,默认为64MB。HDFS将DataNode上的磁盘空间分成N个这样的块,供应用程序使用。应用程序(Clicnt)需要写文件时,首先访问NameNode,请求分配数据块,NameN0de根据管理的DataNode服务器的磁盘空间,按照一定的负载均衡策略,分配若干数据块供Client使用。
小结:
所以当Clieni写完一个数据块时,HDFS会将这个数据块再复制两份存储在其他DataNede服务器上,HDFS默认同一份数据有三个副本,保证数据可靠性。因此在HDFS中,即使DataNode服务器有多块磁盘,也不需要使用RAID进行数据备份,而是在整个集群上进行数据复制,而且系统一旦发现某台服务器宕机,会自动利用其他机器上的数据将这台服务器上存储的数据块自动再备份一份,从而获得史高的数据可靠性。HDFS配合MapReducc等并行计算框架进行大数据处理时,可以在整个集群上并发读写访问所有的磁盘,无需RAID支持即可。
这两次都是从硬件本身一个是更换存储器,另一个是更改阵列来提升网站架构性能,我还能在存储器性能进行优化吗?这边,小编想起来了,可以从存储方式—数据结构方面来改善,具体请看下一博文:
【网站高性能 3】----B+树 vs LSM树: http://blog.csdn.net/u013067756/article/details/54346584