HDFS简介

一、HDFS概念

HDFS (Hadoop Distributed File System)
指适合运行在通用硬件上的分布式文件系统

二、HDFS特点和特性

现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。
1. 高容错性
适合部署在廉价的机器上
2. 高吞吐量
为大量数据访问的应用提供高吞吐量支持
3. 大文件存储
支持存储TB-PB级别的数据

HDFS适用于大文件存储、流式数据访问,适合那些有着超大数据集(large data set)的应用程序;不适合大量小文件、随机写入、低延迟读取

  • 数据访问。运行在HDFS之上的应用程序必须流式地访问它们的数据集,它不是运行在普通文件系统之上的普通程序。HDFS被设计成适合批量处理的,而不是用户交互式的。重点是在数据吞吐量,而不是数据访问的反应时间 。
  • 简单一致性模型。大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题,并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。

三、体系结构

  • HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。
  • 其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作。
  • DataNode管理存储的数据。DataNodes作为从机,每台机器位于一个集群中,并提供实际的存储. 它负责为客户读写请求服务。

如图为基本系统架构:
在这里插入图片描述

  • NameNode:NameNode用于存储、生成文件系统的元数据。运行一个实例。

  • DataNode:DataNode用于存储实际的数据,将自己管理的数据块上报给NameNode ,运行多个实例。

  • Client:支持业务访问HDFS, 从NameNode ,DataNode获取数据返回给业务。多个实例,和业务一起运行。

  • HDFS中的读/写操作运行在块级。HDFS数据文件被分成块大小的块,这是作为独立的单元存储。默认块大小为64 MB。
  • HDFS操作上是数据复制的概念,其中在数据块的多个副本被创建,分布在整个节点的群集以使在节点故障的情况下数据的高可用性。

注:在HDFS的文件,比单个块小,不占用块的全部存储。

四、HDFS读写操作

HDFS数据读取流程

在这里插入图片描述
HDFS数据读取流程如下:

  1. 业务应用调用HDFS Client提供的API打开文件。
  2. HDFS Client联系NameNode,获取到文件信息(数据块、DataNode位置信息)。
  3. 业务应用调用read API读取文件。
  4. HDFS Client根据从NameNode获取到的信息,联系DataNode,获取相应的数据块。(Client采用就近原则读取数据)。
  5. HDFS Client会与多个DataNode通讯获取数据块。
  6. 数据读取完成后,业务调用close关闭连接。
HDFS数据写入流程

在这里插入图片描述

  1. 业务应用调用HDFS Client提供的API创建文件,请求写入。
  2. HDFS Client联系NameNode,NameNode在元数据中创建文件节点。
  3. 业务应用调用write API写入文件。
    HDFS Client收到业务数据后,从NameNode获取到数据块编号、位置信息后,联系DataNode,并将需要写入数据的DataNode建立起流水线,完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2, DataNode3。
  4. 写完的数据,将返回确认信息给HDFS Client。
  5. 所有数据确认完成后,业务调用HDFS Client关闭文件。
  6. 业务调用close,flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据。

参考文献:https://www.jianshu.com/p/cdb9b36811cb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值