HDFS详细讲解

hadoop入门:第三章HDFS文档概述(一)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17301
(出处: about云开发)

1.HDFS的用户指南

文档简介:
使用HDFS既可以作为Hadoop 集群的一部分,也可以单独作为通用的分布式文件系统。HDFS 设计在多个环境中工作,HDFS知识帮助改进配置和诊断指定的集群。
网址:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

 

推荐:HDFS 用户手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17304



2.HDFS命令指南

文档简介:
文档中介绍了HDFS所有的命令及如何使用

 
网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html


3.HDFS高可用使用QJM【Quorum Journal Manager】

文档简介:
本指南提供了HDFS高可用性(HA)功能,以及如何配置和管理HA HDFS集群,使用 QJM【 Quorum Journal Manager】 功能的概述。

本文假设读者对通用组件和节点类型在HDFS集群一个大致的了解。 

 

网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html


4.HDFS高可用【NFS】



文档简介:

这个文档提供了一个HDFS HA功能概述和如何管理配置一个HDFS HA集群,使用NFS共享存储的NameNodes节点要求。
注意:
使用QJM或则常规共享存储
这个向导描述了如何配置和使用HDFS HA,使用共享 NFS目录共享共享edit日志在 Active 和 Standby NameNodes。关于如何配置HDFS HA使用Quorum Journal Manager,不使用NFS,请看http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 
网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html


5.HDFS Federation

文档简介:
这个向导提供了HDFS Federation 功能概述和如何配置和管理federated 集群

Federation 可以理解为联盟

 


网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html


6.视图文件系统指南

文档简介:
ViewFs(视图文件系统)提供一种方式管理多个文件系统命令空间(或则namespace 卷)。它是非常有用的特别对于多个namenode,所以多个namespaces,在HDFS联盟(http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html). ViewFs类似于一些Unix/Linux操作系统的客户端安装列表。

本指南描述了,在有多个集群的Hadoop系统中,每一个集群都可能联合起来形成多个命名空间。也描述了如何在联邦的HDFS中用ViewFs为每一个集群提供一个全局的命名空间,以使应用程序可以以类似于联邦之前的方式运行。
相关:
hadoop视图文件系统指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17303


7.HDFS快照(HDFS Snapshots)
文档简介:
HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份,防止用户错误和容灾。
HDFS实现了:

  • Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
  • 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数
  • 在datanode 上面的blocks 不会复制,做Snapshot 的文件是纪录了block的列表和文件的大小,但是没有数据的复制
  • Snapshot 并不会影响HDFS 的正常操作:修改会按照时间的反序记录,这样可以直接读取到最新的数据。快照数据是当前数据减去修改的部分计算出来的。

中文参考:
HDFS快照(HDFS Snapshots)
http://www.aboutyun.com/thread-17305-1-1.html



网址:
http://hadoop.apache.org/docs/r2 ... /HdfsSnapshots.html


8.HDFS架构

文档简介:
Hadoop分布式文件系统(HDFS)是一个设计运行在通常的硬件机器上的分布式文件系统。它与已存在的分布式文件系统有许多相似性。但是,与其它系统的不同之处也很重要。HDFS是一个高容错性系统,被设计成可以运行在廉价硬件上。HDFS可提供高吞吐量,适合于那些具有大数据集的应用场合。HDFS放宽了一些POSIX要求,以适应流式存取文件数据。HDFS最初是作为Apache Nutch web搜索引擎项目的基础构件来开发的。现在HDFS是Apache Hadoop的核心项目,项目URL为 http://hadoop.apache.org/.

中文参考:HDFS架构(Apache Hadoop 2.1.1-beta)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17306

英文网址: http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html


9.离线Edits 阅读器指南

文档简介:
离线的Edits查看器是一个解析Editslog文件的工具。当前程序需要用于不同格式的转换,包括可读的和比本地二进制格式更易编辑XML文件。

此工具可以解析Hadoop0.19和机器之后版本的edits格式。这个工具只操作文件,不需要Hadoop集群正在运行。
英文网址:
http://hadoop.apache.org/docs/r2 ... dfsEditsViewer.html


10.离线Image 阅读器指南

文档简介
离线Image 阅读器是一个转存hdfs fsimage 文件的内容为可阅读的格式,提供只读的WebHDFS API,允许离线分析和检查Hadoop集群的namespace。这个工具能够处理大的image 文件相对的较快。工具处理layout 格式包括hadoop2.4及以上版本。如果想处理旧layout 格式,你可以使用hadoop2.3或则oiv_legacy 命令离线Image 阅读器。如果工具不能处理image 文件,它将退出。离线Image 阅读器不需要集群运行,它完全处于脱机状态。

英文网址: http://hadoop.apache.org/docs/r2 ... dfsImageViewer.html


11. HDFS 权限指南

文档简介:
hadoop分布式文件系统(HDFS)实现了权限模型为文件和目录,共享大部分POSIX 模型。每个文件和目录都有拥有者和所属组。文件或则目录对于所属用户有单独的权限,对于组成员其它用户,和其它所有用户。对于文件,r权限是读文件,w权限是写或则追加文件。目录,r权限列出目录的内容,w权限可以创建和删除文件或则目录,x权限允许访问子目录。

网址:
http://hadoop.apache.org/docs/r2 ... rmissionsGuide.html


12. HDFS 配额指南

文档简介:
hadoop分布式文件系统允许管理员设置已使用的name quotas,和Space Quotas为单独的目录。Name quotas 和 space quotas 单独操作, 但是administration 和 implementation是两种类型的并行的配额

网址: http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

13.hftp指南

文档简介:
HFTP 是一个hadoop文件系统实现,让你读取数据从远程hadoop hdfs集群。读取通过HTTP,和数据源是DataNodes。HFTP 是一个只读的文件系统,如果尝试使用写数据或则修改文件系统状态会抛出异常。

网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Hftp.html


14.C API libhdfs

文档简介:
libhdfs 是一个JNI ,基于C API的hadoop 分布式文件系统(HDFS)。它提供 HDFS APIs的一个子集操作HDFS文件和系统。libhdfs 是hadoop 分布式的部分,来自预编译在$HADOOP_HDFS_HOME/lib/native/libhdfs.so .libhdfs 是与windows兼容的,可以在window上运行mvn编译构建,在hadoop-hdfs-project/hadoop-hdfs源码树目录。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/LibHdfs.html


15.WebHDFS REST API

文档简介:
HTTP REST API支持完整的FileSystem/FileContext HDFS接口。

英文网址:
http://hadoop.apache.org/docs/r2 ... p-hdfs/WebHDFS.html


16.HttpFS Gateway

文档简介:
Hadoop HDFS 通过 HTTP - 文档集
HttpFS是NameNode的单独服务。HttpFS是一个Java web应用程序和运行使用预配置的Tomcat,捆绑HttpFS 二进制 分布
HttpFS有很多功能,比如读写数据,传输数据等。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-hdfs-httpfs/index.html


17. Short-Circuit 本地读取

文档简介:
在HDFS,读取通常通过DataNode。因此,当客户端请求DataNode读取一个文件,DataNode读取文件从磁盘,发送数据通过TCP socket到客户端。所谓的“short-circuit” 的读取,绕过DataNode,允许客户端读取文件目录。很明显,唯一可能的情况是客户端与数据共定位。Short-circuit 提升了许多应用的读取性能。

英文网址: http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/ShortCircuitLocalReads.html



18. HDFS集中缓存管理

文档简介:
在HDFS集中缓存管理是一个显式缓存机制,允许用户指定要缓存的HDFS路径。NameNode 与DataNodes 通信,在磁盘上有请求的blocks ,指导他们在off-heap来缓存blocks 。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html


19. HDFS NFS Gateway

文档简介:
NFS Gateway支持NFSv3 和允许安装的HDFS作为客户端本地文件系统部分 .
NFS gateway 机器需要同样的事情运行一个HDFS客户端,像Hadoop JAR 文件,HADOOP_CONF 目录。NFS gateway 可以在相同的客户端与 DataNode, NameNode, 或则任何  HDFS client.

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html



20. HDFS滚动升级

文档简介:
HDFS 滚动升级允许单独升级HDFS守护进程。比如,datanodes 可以独立于namenode升级。一个namenode 可以独立于其它namenodes升级。namenodes 可以独立于datanods 和journal nodes升级

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html


hadoop入门:第三章HDFS文档概述(二)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=17316

(出处: about云开发)

21.HDFS扩展属性

文档简介:
扩展属性(abbreviated as xattrs)是文件系统功能,允许用户应用程序将附加元数据与文件或目录关联起来。不像系统级别inode元数据比如文件权限或则修改时间,扩展属性系统没有解释,取而代之的是应用程序用于存储索引节点的附加信息。例如,可以使用扩展属性来指定一个纯文本文档的字符编码。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/ExtendedAttributes.html


22.HDFS透明加密

文档简介:

HDFS实现透明的、端到端的加密。一旦配置,数据读取和写入指定HDFS目录是透明加密,解密不需要改变用户应用程序代码。这个加密也是端到端,这意味着数据仅被客户端加密和解密。HDFS不会存储或则访问加密数据或则加密数据加密keys。这满足了2个典型的加密要求:在其它加密(关于持久media数据,比如磁盘)以及传输加密。(等等当数据在网络上传输)

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/TransparentEncryption.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值