京东大数据资料hdfs 存储(一)

 

【漫画系列】HDFS存储原理分析(一)

 
我的评论
加载中

已评论

 

【漫画系列】HDFS存储原理分析(一)

2015-05-06 京东大数据专家 京东大数据专家
京东大数据专家

微信号 jdjcbp

功能介绍 关注京东大数据专家,随时报名参加认证,即时了解培训计划,文档丰富,自助学习。

本次分享共分为三期,结合Maneesh Varshney的漫画改编,为大家分析HDFS存储机制与运行原理。

 

一、角色出演

如上图所示,HDFS存储相关角色与功能如下:

Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。

二、写入数据

1、发送写数据请求


HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。

 

2、文件切分


3、DN分配


 

4、数据写入




5、完成写入




6、角色定位


三、HDFS存储写操作分析

通过写过程,我们可以了解到:

1、HDFS属于Master与Slave结构。一个集群中只有一个NameNode,可以有多个DataNodes;

2、HDFS存储机制保存了多个副本,当写入1T文件时,我们需要3T的存储,3T的网络流量带宽;系统提供容错机制,副本丢失或宕机可自动恢复,保证系统高可用性。

3、HDFS默认会将文件分割成block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,会导致内存的负担很重。

 

四、思考

1、数据写入时出错怎么办?

2、元数据是如何存储的?

 

未完待续……

 

阅读
举报
 

微信扫一扫
关注该公众号

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值