![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
HDFS
大数据开发
菜鸟hyn
这个作者很懒,什么都没留下…
展开
-
HDFS读文件
1、首先调用FileSystem.open()方法,获取到DistributedFileSystem实例 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的开始部分或全部block列表,对于每个返回的块,都包含块所在的DataNode地址。这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离,然后再进行排序。 如果客户端本身就...原创 2018-06-16 14:27:31 · 329 阅读 · 0 评论 -
HDFS写文件
1、客户端通过调用DistributedFileSystem的create()方法,创建一个新文件,DistributedFileSystem通过RPC调用,在NameNode的文件系统命名空间中创建一个新文件,此时还没有相关的DataNode与之相关联2、NameNode会通过多种验证保证新的文件不存在于文件系统中,并且确保请求客户端拥有创建文件的权限。当所有验证通过后,NameNode会创建一...原创 2018-06-16 14:48:03 · 262 阅读 · 0 评论 -
HDFS体系架构
HDFS是一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储。HDFS优点/为什么选择HDFS存储数据?1、高容错性 1)数据自动保存多个副本。它通过增加副本的形式,提高容...原创 2018-06-16 17:26:42 · 760 阅读 · 0 评论 -
NameNode
HDFS采用Master/Slave架构。NameNode就是HDFS的Master架构。HDFS系统包括一个NameNode组件,主要负责HDFS文件系统的管理工作,具体包括名称空间(namespace)管理,文件Block管理。 在HDFS内部,一个文件被分成一个或多个Block,这些Block存储在DataNode集合里,NameNode就负责管理文件Block的所有元...原创 2018-06-16 17:40:27 · 1121 阅读 · 0 评论 -
DataNode
DataNode就是负责存储数据的组件,一个数据块block会在多个DataNode中进行冗余备份,而一个DataNode对于一个块最多只包含一个备份。所以可以简单地认为DataNode上就存储了数据块ID和数据块内容,以及它们的映射关系。 一个HDFS集群可能包含上千个DataNode节点,这些DataNode定时和NameNode进行通信,接受NameNode的指令,为了减轻N...原创 2018-06-16 19:53:58 · 3135 阅读 · 0 评论 -
SecondaryNameNode
在深入了解SecondaryNameNode之前,先来回顾一下NameNode是做什么的NameNode: NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息、块信息等。当它运行的时候,这些信息时存在内存中的。但是这些信息也可以持久化到磁盘上。 1、fsimage : 它是在NameNode启动时,对整个文件系统的快照。 2、edit logs: 它是在NameNode...原创 2018-06-16 20:27:26 · 236 阅读 · 0 评论 -
Block块
block块大小为什么是128M? 磁盘寻址时间:10ms左右 I/O速率:100M/s 要让文件的寻址时间不会占用太多的文件读写时间,通常是1%;10ms*100 = 1s;所以让文件块的大小在100M左右,100M转换为二进制就是128MBlock概念: 磁盘有默认的数据块大小,它是磁盘读/写数据的最小单位。构建在这样的磁盘上的文件系统也是通过磁盘块来管理该文件系统中的...原创 2018-06-16 21:29:21 · 2997 阅读 · 0 评论 -
Hadoop2.x新特性:HA、Federation、快照
NameNode HA(1) 基于NFS共享存储解决方案(2) 基于Qurom Journal Manager(QJM)解决方案NameNode Federation(1) 存在多个NameNode,每个NameNode分管一部分目录(2) NameNode共用DataNode一、HDFS的新特性HA(一) HDFS的HA机制 Hadoop 2.2.0 版本之前,NameNode是HDF...原创 2018-06-17 09:24:48 · 1028 阅读 · 0 评论