根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。
一、角色出演
![角色](http://img.dmc.csdn.net/E1F33244D3479BF4B321781E6BEB0464.png)
如上图所示,HDFS存储相关角色与功能如下:
Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。
Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。
Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。
二、写入数据
1、发送写数据请求
![发送写数据请求](http://img.dmc.csdn.net/5041C0567F30F5B5166E1916F2F5CC49.png)
HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。
2、文件切分
![文件切割](http://img.dmc.csdn.net/1FB7C8A82BC8DF4EDC2D46A1B723D91F.png)
3、DN分配
![DN分配1](http://img.dmc.csdn.net/0FD7BF025D3C3FB4523F37B03FF4A1F8.png)
![DN分配2](http://img.dmc.csdn.net/88A0914DC633D6FF8452AF8E3D6F8B91.png)
4、数据写入
![数据写入1](http://img.dmc.csdn.net/929C852A887FE1C4C29F9259D3BF21B7.png)
![数据写入2](http://img.dmc.csdn.net/139734EDCAFA9A0EB16045D8EA2E9B9B.png)
5、完成写入
![完成写入1](http://img.dmc.csdn.net/CB581D2ACF12B391E7C8CD9F2029E740.png)
![完成写入2](http://img.dmc.csdn.net/3A347C2921A8D14CA6C9D58BCC1AE9D8.png)
![完成写入3](http://img.dmc.csdn.net/0B4492DE537D8F5AB97052E03A6D8780.png)
6、角色定位
![角色定位](http://img.dmc.csdn.net/30FE6FE4AC750150EF7EF81E7CAA8BE5.png)
三、HDFS读文件
1、用户需求
![用户需求](http://img.dmc.csdn.net/01A35CFA2AF3740B8DA6D7DE21680B6E.png)
HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。
2、先联系元数据节点
![联系元数据节点1](http://img.dmc.csdn.net/C2971FEA0A4CD9EDF12B707856DEA3E3.png)
![联系元数据节点2](http://img.dmc.csdn.net/F3F8CFBE63AD233C670E052220F67893.png)
![联系元数据节点2](http://img.dmc.csdn.net/9520F39EC9529D513FB752B932DBAE03.png)
3、下载数据
![下载数据](http://img.dmc.csdn.net/2565A67C42A143FDC8A42F9E259626BC.png)
前文提到在写数据过程中,数据存储已经按照客户端与DataNode节点之间的距离进行了排序,距客户端越近的DataNode节点被放在最前面,客户端会优先从本地读取该数据块。
4、思考
![思考](http://img.dmc.csdn.net/396EABBE1627353E07A3CD25AFD17CC3.png)
四、HDFS容错机制――第一部分:故障类型及监测方法
1、三类故障
(1)第一类:节点失败
![节点失败](http://img.dmc.csdn.net/783AA15404DD4FF380DDC7DB474ACC11.png)
(2)第二类:网络故障
![网络故障](http://img.dmc.csdn.net/D3E5524C7E5B8FF6C6D2CB167A377494.png)
(3)第三类:数据损坏(脏数据)
![数据损坏](http://img.dmc.csdn.net/3359762FD180BC115AF68B623419DEA6.png)
2、故障监测机制
(1)节点失败监测机制
![节点失败检测机制1](http://img.dmc.csdn.net/C2BB547E9AA26707C2F31FB4686888E6.png)
![节点失败检测机制2](http://img.dmc.csdn.net/7BAEA7CE0FD0BF079E2C95DE0E34FB42.png)
![节点失败检测机制3](http://img.dmc.csdn.net/DE0665860A468B2074B60D6A4715CEC9.png)
(2)通信故障监测机制
![通信故障检测机制](http://img.dmc.csdn.net/BA11B654A0257ECA71182969CADCBD84.png)
(3)数据错误监测机制
![数据错误检测机制1](http://img.dmc.csdn.net/4A3527554C78A267B0DCAB30C8B87BB0.png)
![数据错误检测机制2](http://img.dmc.csdn.net/C59FEA665D200625243140BFFBD377AE.png)
![数据错误检测机制3](http://img.dmc.csdn.net/18174444CA6591A98C9058E89618409F.png)
3、回顾:心跳信息与数据块报告
![回顾:心跳信息与数据块报告](http://img.dmc.csdn.net/70A077CAF0CC698E3417CC3D6A04F207.png)
HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态,所以在设计时充分考虑到单个机器故障,单个磁盘故障,单个文件丢失等情况。
五、容错第二部分:读写容错
1、写容错
![写容错1](http://img.dmc.csdn.net/0B03976A86B7CADCA06D9A962F0CFA94.png)
![写容错2](http://img.dmc.csdn.net/FC0376B4F2427338B10C2C30AF514C23.png)
![写容错3](http://img.dmc.csdn.net/8442440F1A20920ADB6C2C06B4DAC9BB.png)
![写容错4](http://img.dmc.csdn.net/AC68732946FBA80D6C78411913E800DE.png)
2、读容错
![读容错](http://img.dmc.csdn.net/558B88A8F8721705B9323B72D4A47970.png)
![读容错2](http://img.dmc.csdn.net/7D60AFBEF9C0E7E77EDA1F14F34C2EA0.png)
六、容错第三部分:数据节点(DN)失效
![数据节点(DN)失效1](http://img.dmc.csdn.net/8E00E480C086668D6E5DB4F6E77AC7E4.png)
![数据节点(DN)失效2](http://img.dmc.csdn.net/97F326A6642CD5E89A4DB9A0DE1583EA.png)
![数据节点(DN)失效3](http://img.dmc.csdn.net/70D5046265661AC05A87231CA7A744C7.png)
![数据节点(DN)失效4](http://img.dmc.csdn.net/C4D3EC9FDBC3897525C8838B49AF56EC.png)
![数据节点(DN)失效5](http://img.dmc.csdn.net/897225FB38CFFABC6801428EF8FA387D.png)
![数据节点(DN)失效6](http://img.dmc.csdn.net/D1640FB93C4CB05D40CBAF3FBA3A80B5.png)
七、备份规则
![备份规则](http://img.dmc.csdn.net/604A7C192B178CD978D2D933C2B8713C.png)
1、机架与数据节点
![1、机架与数据节点](http://img.dmc.csdn.net/5CE92E6FA0DE56001AD83FDA6B4602B2.png)
2、副本放置策略
![2、副本放置策略](http://img.dmc.csdn.net/C1CD3E7C74036DA0620BABE37ECDDFB4.png)
数据块的第一个副本优先放在写入数据块的客户端所在的节点上,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。
如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。
![数字节点放置](http://img.dmc.csdn.net/D6DFA3A7F7B31C5B208720BBACC0022E.png)
HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。
这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。
![DN节点选取](http://img.dmc.csdn.net/C2BBAF97016B2A97DF1ED37F1B5A47C2.png)
![细则](http://img.dmc.csdn.net/2FD79CEE3ADE182ED68A4C4DA3C29B66.png)