HDFS学习笔记

最新推荐文章于 2022-11-30 20:38:59 发布

子鱼_sunmac

最新推荐文章于 2022-11-30 20:38:59 发布

阅读量300

点赞数

分类专栏：大数据相关文章标签： HDFS Hadoop生态分布式文件系统

本文链接：https://blog.csdn.net/macSun_jh/article/details/80659310

版权

大数据相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

 
 HDFS学习笔记 

 
 https://www.cnblogs.com/wxisme/p/6270860.html 

 
 https://www.linuxidc.com/Linux/2015-11/124747.htm 

 
 HDFS，是Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。HDFS的文件分布在集群机器上，同时提供副本进行容错及可靠性保证。例如客户端写入读取文件的直接操作都是分布在集群各个机器上的，没有单点性能压力。 

 
 什么是HDFS 

 
 1. 
 HDFS中的文件在物理上是 
 分块存储（block） 
 ，块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，之前的版本中是64M。 

 
 　　 
 2. 
 HDFS文件系统会给客户端提供一个 
 统一的抽象目录树 
 ，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 

 
 　　 
 3. 
 目录结构及文件分块位置信息(元数据) 
 的管理由namenode节点承担，namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的数据块信息（blockid及所在的datanode服务器） 

 
 　　4.文件的各个block的存储管理由datanode节点承担，datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication，默认是3） 

 
 　　5.Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量，HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行。 

 
 　　6.HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改。需要频繁的RPC交互，写入性能不好。 

 
 namenode和datanode的理解 

 
 http://www.weduoo.com/archives/1179 

 
 Namenode是中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名称空间（namespace）以及客户端对文件的访问。 

  文件操作，Namenode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不会经过Namenode，只会询问它跟那个DataNode联系，否则Namenode会成为系统的瓶颈。 

  副本存放在哪些DataNode上由Namenode来控制，根据全局情况作出块放置决定，读取文件时Namenode尽量让用户先读取最近的副本，降低带块消耗和读取延时。 

  Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。 

  Namenode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限）以及每个文件的块列表，以及块所在的DataNode等等。 

 
  NameNode存储结构： 

     {dfs.namenode.name.dir} 

            |---VERSION 

            |---fsimage 

            |---edits 

 
  namespaceID:代表的是文件系统唯一标识，文件系统首次格式化时产生。没有注册到namenode之前的datanode都不知道namespaceID，所以可以通过这个来检查新建的datanode 

 
           clusterID：集群ID 

 
           cTime：NameNode存储系统创建时间，首次格式化文件系统这个属性是0，当文件系统升级之后，该值会更新到升级之后的时间戳 

 
           storageType：说明该存储目录是namenode的数据结构 

 
           layoutVersion：是一个负整数，用来描述HDFS持久化数据结构的版本的。这个版本与Haoop版本号无关，当文件系统布局发生改变他就回减一，但是此时HDFS也需要升级，否则新的namenode无法使用。 

 
           blockpoolID：块池id。 

  一个数据块在 
 Datanode以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 

  Datanode启动后想namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。 

  心跳是每3秒一次，心跳返回结果带有namenode给该Datanode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个Datanode的心跳，则认为该节点不可用。 

  集群运行中可用安全加入和退出一些机器。 

  文件切分成块，（默认大小128M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3） 

  Datanode再本地文件系统存储文件块数据，以及块数据的校验和。 

  可以创建，删除，移动和重命名文件，当文件创建，写入和关闭之后不能修改文件的内容。 

  当Datanode读取block的时候，它会计算checksum，如果计算后的checksum，与block创建时值不一样，说明该block已经损坏。 

  如果块已损坏，Client会读取其它Datanode上的block. 

  namenode标记该块已经损坏，然后复制block达到预期设置的文件备份数。 

  Datanode在其文件创建后三周验证其checksum. 

 
 数据写入过程 

 
 http://www.bkjia.com/yjs/998063.html 

 
 设计目标 

存储非常大的文件：这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。根据Hadoop官网，Yahoo！的Hadoop集群约有10万颗CPU，运行在4万个机器节点上。更多世界上的Hadoop集群使用情况，参考Hadoop官网.
采用流式的数据访问方式: HDFS基于这样的一个假设：最有效的数据处理模式是一次写入、多次读取数据集经常从数据源生成或者拷贝一次，然后在其上做很多分析工作

 
 分析工作经常读取其中的大部分数据，即使不是全部。 因此读取整个数据集所需时间比读取第一条记录的延时更重要。 

运行于商业硬件上: Hadoop不需要特别贵的、reliable的机器，可运行于普通商用机器（可以从多家供应商采购）商用机器不代表低端机器在集群中（尤其是大的集群），节点失败率是比较高的HDFS的目标是确保集群在节点失败的时候不会让用户感觉到明显的中断。

 
   
 HDFS不适合的应用类型 

 
 1） 低延时的数据访问  

 
 对延时要求在毫秒级别的应用，不适合采用HDFS。HDFS是为高吞吐数据传输设计的,因此可能牺牲延时HBase更适合低延时的数据访问。 

 
 2）大量小文件  

 
 文件的元数据（如目录结构，文件block的节点列表，block-node mapping）保存在NameNode的内存中， 整个文件系统的文件数量会受限于NameNode的内存大小。  

 
 经验而言，一个文件/目录/文件块一般占有150字节的元数据内存空间。如果有100万个文件，每个文件占用1个文件块，则需要大约300M的内存。因此十亿级别的文件数量在现有商用机器上难以支持。 

 
 3）多方读写，需要任意的文件修改  

 
 HDFS采用追加（append-only）的方式写入数据。不支持文件任意offset的修改。不支持多个写入器（writer）。 

子鱼_sunmac

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS学习笔记

HDFS学习笔记https://www.cnblogs.com/wxisme/p/6270860.htmlhttps://www.linuxidc.com/Linux/2015-11/124747.htmHDFS，是Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。HDFS的文件分布在集群机器上，同时提供副本进行容错及可靠性保证。例如客户端写...
复制链接

扫一扫

专栏目录