HDFS
文章平均质量分 66
zhifeng687
这个作者很懒,什么都没留下…
展开
-
Hdf的块分配策略
HDFS块分配策略注:上图提到的远程机架与本地机架是相对于找到的第一个副本的目标节点来说。一个客户端a机器发起请求分配块请求,NN接收到请求后,执行如下块分配流程:1)如果a不是一个DataNode,则在集群范围内随机选择一个节点作为目标节点,否则执行下面的2,3步骤;2)判断a机器是否符合存储数据块的目标节点,如果符合,第一个块副本分配完毕;3)如果a机器不符合作为目标节点,则在于与a机器同机架范围内寻找,如果找到目标节点,第一个块副本分配完毕;4)如果在同一个机架...转载 2016-05-06 11:36:54 · 746 阅读 · 0 评论 -
hdfs3.2源码分析之DFSOutputStream
DFSOutputStream概述DFSOutputStream从字节流中创建文件。client端写入的数据首先由这个这个流缓存。data数据首先分割成packets,每个packet都是64k的大小。每个packet由chunk组成,每个chunk都是512的字节大小,并且都附带一个checksum。当client端填充完currentPacket后,会把它放入DataStrea...原创 2015-09-16 23:42:46 · 1329 阅读 · 0 评论 -
HDFS Users Guide
HDFS is the primary distributed storage used by Hadoop applications. A HDFS cluster primarily consists of a NameNode that manages the file system metadata and DataNodes that store the actual data. The...翻译 2017-08-27 14:54:23 · 359 阅读 · 0 评论 -
HDFS机架感知功能原理(rack awareness)
HDFS NameNode对文件块复制相关所有事物负责,它周期性接受来自于DataNode的HeartBeat和BlockReport信息,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC。这样可以防止整个机架、甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之间、甚至IDC之间传输,增...转载 2016-09-01 21:34:57 · 1360 阅读 · 0 评论 -
hdfs读写文件核心流程详解
一.hdfs写数据流程(面试重点)1)客户端(fs)向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求向dn1上传数据,dn1收到请求会继续调用d...转载 2015-08-03 21:38:14 · 4176 阅读 · 0 评论 -
hdfs checkSum
Datanode在把数据实际存储之前会验证数据的校验和.client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和.当client从datanode读取数据时,也会检查校验和: 把真实数据的校验和同datanode上的校验和进行比较.每个datanode都保存有一个checksum验证的持久化日志,日志中有当前datanod...转载 2016-03-22 22:44:05 · 1372 阅读 · 0 评论 -
namenode的fsimage与editlog详解
Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。editlog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS...转载 2016-05-10 11:43:42 · 3468 阅读 · 1 评论 -
hadoop HDFS原理
2. HDFS设计原则HDFS设计之初就非常明确其应用场景,适用与什么类型的应用,不适用什么应用,有一个相对明确的指导原则。2.1 设计目标 存储非常大的文件:这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。根据Hadoop官网,Yahoo!的Hadoop集群约有10万颗CPU,运行在4万个机器节点上。更多世界上的Hadoop集群使用情况,参考...转载 2018-02-26 10:58:51 · 362 阅读 · 0 评论 -
hadoop namenode的工作机制
hadoop 集群中有两种节点,一种是namenode,还有一种是datanode。其中datanode主要负责数据的存储,namenode主要负责三个功能,分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求首先介绍下,元数据格式hdfs在外界看来就是普通的文件系统,可以通过路径进行数据的访问等操作,但在实际过程存储中,却是分布在各个节点上。如上图所示,是一条元数...转载 2018-02-26 11:57:23 · 3626 阅读 · 0 评论 -
详解HDFS Short Circuit Local Reads
详解HDFS Short Circuit Local ReadsHadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。最初设计的时候,这种Local Reads和Remote...转载 2018-04-16 23:15:47 · 359 阅读 · 0 评论 -
Hhadoop-2.7.0中HDFS写文件源码分析
转载自:http://blog.csdn.net/lipeng_bigdata/article/details/53738376一、综述 HDFS写文件是整个Hadoop中最为复杂的流程之一,它涉及到HDFS中NameNode、DataNode、DFSClient等众多角色的分工与合作。 首先上一段代码,客户端是如何写文件的:[java]view pla...转载 2018-02-26 10:47:56 · 1097 阅读 · 0 评论