hadoop doc
漱冰濯雪
这个作者很懒,什么都没留下…
展开
-
Hadoop2.5.2完全分布式 运行wordcount
[hadoop@lrts216 bin]$./hdfs dfs -mkdir -p /lrts/zhangzk13/12/19 22:20:41 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic原创 2015-11-09 10:03:42 · 1736 阅读 · 0 评论 -
Offline Image Viewer Guide
综述Offline Image Viewer是一个将fsimage的内容转换为可以阅读的工具,为了运行理想分析并Hadoop集群的检查。工具可以较快速的处理较大的image文件将他们转换为几种输出格式之一。工具可以处理Hadoop16及以上版本,如果不能处理,他会退出。他是一个离线操作,不需要集群环境。统计提供了几种处理方式:1 Ls是一个默认的输出处理方式。他模拟ls原创 2015-11-27 16:38:14 · 931 阅读 · 0 评论 -
HDFS Permissions Guide
HDFS Permission GuideOverviewHDFS实现了一个文件和目录权限模型,拥有很多POXIS模型的影子。每个文件和目录与一个所有者和一个用户组相关联。文件或目录有各自的用户权限,用户包括所有者,所有者同组的其他用户,所有其他的用户。对于文件来说,r权限代表读文件,w权限代表写或者追加数据到文件。对于目录,r表示可以列出目录的内容,w权限代表可以创建或者删除文件原创 2015-11-27 16:44:10 · 3102 阅读 · 0 评论 -
Hadoop本地库
目的鉴于性能问题以及某些Java类库的缺失,对于某些组件,Hadoop提供了自己的本地实现。这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so. 本文主要介绍本地库的使用方法以及如何构建本地库。组件Hadoop现在已经有以下 compression codecs本地组件:zlib gzip lzo 在以原创 2015-11-27 15:40:50 · 440 阅读 · 0 评论 -
Common-Hadoop HTTP web控制台认证
简单介绍此文档描写叙述了怎样配置Hadoop HTTP web控制台,去要求用户认证。默认地,Hadoop HTTP web控制台(JobTracker, NameNode, TaskTrackers 和 DataNodes)不须要不论什么认证就同意訪问。与Hadoop RPC相似, Hadoop HTTP web控制台能够被配置为须要使用HTTP SPNEGO协议认证(由原创 2015-11-27 16:00:21 · 1031 阅读 · 0 评论 -
Dapper,大规模分布式系统的跟踪系统
概述当代的互联网的服务,通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台服务器,横跨多个不同的数据中心。因此,就需要一些可以帮助理解系统行为、用于分析性能问题的工具。Dapper--Google生产环境下的分布式跟踪系统,应运而生。那么我们就来介绍一个大规模集群的原创 2015-11-27 16:14:26 · 2293 阅读 · 0 评论 -
HDFS利用QJM实现HA(HDFS High Availability Using the Quorum Journal Manager)
目的本指南概述HDFS的高可用性(HA)的特性,以及如何配置和管理HA HDFS集群,使用QJM特性。本文假设读者有一个大致了解通用组件和一个HDFS集群中的节点类型。详情请参阅HDFS架构指南。注意:QJM或者共享存储本指南将要讨论如何配置并利用QJM实现HA,HA是通过在活动的NameNode与备份的NameNode之间共享edit日志,对于如何通过共享存储代替原创 2015-11-27 16:24:53 · 997 阅读 · 0 评论 -
HDFS配额指南(HDFS Quotas Guide)
综述HDFS允许管理员为使用的命名和每个个人的文件夹设置配额。命名配额和空间配额独立操作,但是这两种陪管理和实现是连接紧密的。命名配额命名配额是一个在这个文件夹下文件和文件夹的数目。如果超过限额那么文件和文件夹的创建会失败,重命名后命名配额仍然起作用。如果重命名操作违反配额的限制,那么重命名会失败。新创建的目录中没有配额的限制。Long.Max_Value表示最大限额。原创 2015-11-27 16:40:16 · 2664 阅读 · 0 评论 -
C API libhdfs
C API libhdfsOverviewLibhdfs是一个基于C的HDFS的JNI。它为一部分HDFS的API提供了一个C的 API,以使用C来管理HDFS文件和文件系统。Libhdfs是Hadoop发行版的一部分,预编译文件是 $HADOOP_PREFIX/libhdfs/libhdfs.so。The APIsLibhdfs APIs是下面的一部分:L原创 2015-11-28 16:44:17 · 2272 阅读 · 0 评论 -
HDFS NFS Gateway
HDFS NFS GatewayOverviewNFS Gateway支持NFSv3,允许HDFS作为客户端本地文件系统的一部分挂载在本地文件系统。目前,NFS Gateway支持和启用了下面的使用模式:1. 用户可以在基于NFSv3客户端兼容的操作系统上的本地文件系统上浏览HDFS文件系统。2. 用户可以从挂载到本地文件系统的HDFS文件系统上原创 2015-11-28 16:56:52 · 5778 阅读 · 0 评论 -
WebHDFS REST API
Document ConventionsMonospacedUsed for commands, HTTP request and responses and code blocks.User entered values.[Monospaced]Optional values. When the va原创 2015-11-28 16:46:59 · 5703 阅读 · 0 评论 -
Hadoop HDFS over HTTP
Hadoop HDFS overHTTP-Documentation Sets2.4.1HttpFs是一个提供REST HTTP的方式支持所有的HDFS文件系统操作的方式。它与webhdfsREST HTTP API彼此协作。HttpFS可以被用来在运行不同版本的Hadoop集群间传递数据(克服了RPC版本不同的问题),例如使用HadoopDistCP工具。HttpFS可以原创 2015-11-28 16:48:18 · 594 阅读 · 0 评论 -
Hadoop HDFS over HTTP 2.4.1 - Server Setup
Hadoop HDFS over HTTP 2.4.1 -Server Setup本篇文章介绍了如何快速建立一个带Pseudo认证的HttpFS。RequirementsJava 6+Maven 3+Install HttpFS[html] view plaincopy~ $ tar xzf httpfs-2.原创 2015-11-28 16:50:32 · 439 阅读 · 0 评论 -
HDFS Rolling Upgrade
HDFS Rolling UpgradeIntroductionHDFS 滚动升级允许单独升级每一个HDFS进程。例如,DataNode可以独立于NameNode升级。一个NameNode可以独立于其他的NameNode升级。NameNode可以独立于DataNode和JournalNode升级。Upgrade在Hadoop V2中,HDFS支持NameNode服务原创 2015-11-28 16:57:49 · 945 阅读 · 0 评论 -
HDFS架构( HDFS Architecture)
HDFS架构介绍Hadoop分布式文件系统(HDFS)是一个运行在普通商用服务器上的分布式文件系统。他和很多的分布式文件系统类似,但是也有很显著的不同。HDFS是一个高容错并且可以部署在廉价机器上运行的系统。HDFS适用于大型系统提供了应用数据的高吞吐量支持。HDFS降低了流式访问文件系统数据的POSIX协议相关的一些要求。HDFS一开始是设计成为Apache Nutch网原创 2015-11-27 16:33:40 · 1972 阅读 · 0 评论 -
HDFS 联盟(HDFS Federation)
背景HDFS主要包括两层:Namespace由目录,文件和块组成支持所有文件系统操作包括增加,删除,修改和列出文件和目录Block Storage Service 有两个部分:Block管理(被NameNode包含)提供datanode集群的注册和定期的心跳检查处理block的报告并掌握block的位置支持bl原创 2015-11-27 16:28:54 · 1963 阅读 · 0 评论 -
使用NFS实现HA(HDFS High Availability With NFS)
目的本指南概述HDFS的高可用性(HA)的特性,以及如何配置和管理HA HDFS集群,使用NFS实现NameNode共享存储本文假设读者有一个大致了解通用组件和一个HDFS集群中的节点类型。详情请参阅HDFS架构指南。注意:QJM或者共享存储本指南讨论如何配置使用HDFS HA使用NFS目录在活跃的和备份的NameNode之间分享edit日志,对于如何通过QJM原创 2015-11-27 16:27:28 · 4648 阅读 · 0 评论 -
Ubuntu14.04+hadoop2.5.2完全分布式集群搭建
1.ubuntu创建新用户并增加管理员权限(所有主机)$是普通管员,#是系统管理员,在Ubuntu下,root用户默认是没有密码的,因此也就无法使用(据说是为了安全)。想用root的话,得给root用户设置一个密码:sudo passwd root然后登录时用户名输入root,再输入密码就行了。ubuntu建用户最好用adduser,虽然adduser和useradd是一样的在别的原创 2015-11-08 14:56:35 · 7860 阅读 · 0 评论 -
Common - 超级用户模拟别的用户
简介此文档描述了一个超级用户如何在安全的方式下以另一用户的名义提交作业或访问hdfs。Use Case下一部分描述的的代码示例对此用户用例是可用的。一个用户名为'super'的超级用户想要以另一用户joe的名义提交作业或访问hdfs。超级用户有kerberos证书但是用户joe并没有。任务要求以用户joe的角色运行并且namenode上的文件访问也需要由joe完成。需要原创 2015-11-27 16:02:16 · 402 阅读 · 0 评论 -
hadoop 透明加密 kms transparent
hadoop透明加密 kms简介 Hadoop Key Management Server(KMS)是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件,client和server之间基于HTTP协议使用REST API通信。Client是一个KeyProvider的实现,使用KMS HTT原创 2015-11-27 16:05:14 · 2525 阅读 · 0 评论 -
ViewFs Guide
简介文件浏览系统(ViewFs)提供了一个管理多个Hadoop文件系统命名空间(或者叫Namespace Volume)的方式。它对于有多个NameNode的联邦集群特别有用。ViewFs与Unix/Linux系统中client side mount tables类似。ViewFs可被用来创建个人命名空间视图,也可以每个集群一个公共的试图。本指南描述了,在有多个集群的Hadoop系原创 2015-11-27 16:31:00 · 1808 阅读 · 0 评论 -
Common - CLI MiniCluster
目的使用 CLI MiniCluster, 用户能够简单地仅仅用一个命令就启动或关闭一个单一节点的Hadoop集群,不须要设置不论什么环境变量或管理配置文件。 CLI MiniCluster 同一时候启动一个 YARN/MapReduce 和 HDFS 集群。这对那些想要高速体验一个真实的Hadoop集群或是測试依赖明显的Hadoop函数的非Java程序 的用户非常实用。原创 2015-11-27 15:55:39 · 936 阅读 · 0 评论 -
Offline Edits Viewer Guide
综述Offline Edits Viewer是一个解析Edits日志的工具。实现不同格式的转换,包括可以被人们方便阅读的XML格式和比较容易编辑的二进制格式。工具可以解析可以解析编辑-18(大约Hadoop 0.19)或更晚的版本。工具只是在文件上运行,可以不需要Hadoop集群启动。输入的格式包括:1.二进制:Hadoop内部使用二进制格式2.xml:XML格式O原创 2015-11-27 16:35:33 · 608 阅读 · 0 评论 -
Hadoop HDFS over HTTP 2.4.1 - Using HTTP Tools
Security开箱即可用的HttpFS既支持pseudo认证,也支持Kerberos HTTP SPNEGO认证。Pseudo Authentication用Pseudo认证时,用户名必须在HttpFS URL的查询参数里通过user.name=指定。例如:[html] view plaincopy$ curl"ht原创 2015-11-28 16:51:20 · 435 阅读 · 0 评论 -
HDFS Short-Circuit Local Reads
HDFS Short Circuit Local ReadsBackgroundHDFS中,读操作通常通过DataNode。因此,当一个客户端访问DataNode读一个文件的时候,DataNode从磁盘中读出该文件,然后通过TCK Socket发送到客户端。所谓的“short-circuit”是绕开DataNode,允许客户端直接读一个文件。明显地,当客户端与数据在同一地点时可能会原创 2015-11-28 16:52:18 · 6392 阅读 · 0 评论 -
Centralized Cache Management in HDFS
Centralized Cache Management inHDFSOverviewHDFS中的集中式缓存管理是一个显式的管理缓存的机制,它允许用户指定被HDFS缓存的路径。NameNode将与磁盘上有所需的Block的DataNode通信,命令其在堆外缓存里缓存Block。HDFS中的集中式缓存管理有许多重要的优势。1. 明确地防止频繁使用的数据被赶出原创 2015-11-28 16:53:19 · 436 阅读 · 0 评论 -
hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储原创 2015-11-27 15:47:50 · 657 阅读 · 0 评论 -
hadoop HDFS 用户指南
1.目的这个文档的出发点是为了那些使用HDFS的用户,不管是集群环境或者是作为独立的通用分布式文件系统。当在许多环境中使用HDFS时,HDFS的工作知识帮助对一个特定的群集上的配置进行改进和诊断2.综述: HDFS是Hadoop应用程序使用的主要分布式存储。一个HDFS集群只要包括一个NameNode 来管理文件系统的元数据,dataNode来存储实际数据。HDFS原创 2015-11-27 16:20:06 · 3128 阅读 · 0 评论 -
HDFS快照(HDFS Snapshots)
综述HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份,防止用户错误和容灾。HDFS实现了:Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数在datanode 上面的blocks 不会复制原创 2015-11-27 16:32:40 · 2186 阅读 · 0 评论 -
HFTP Guide
HFTP GuideIntroductionHDFS是一个可以让你从远程HDFS集群读取数据的Hadoop文件系统的实现。数据读取通过HTTP,数据都在DataNode上。HFTP是一个只读的文件系统,如果你试图用它写或者修改文件系统的状态,将会抛出一个错误。如果你用多个不同版本的HDFS集群,然后你需要在集群之间移动数据的话,HFTP是非常有用的。HFTP在不同HDFS版本之间都是兼原创 2015-11-27 16:46:23 · 4268 阅读 · 0 评论 -
Hadoop服务层授权控制
Hadoop在服务层进行了授权(Service Level Authorization)控制,这是一种机制可以保证客户和Hadoop特定的服务进行链接,比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.xml中进行配置。它是最基础的访问控制,优先于文件权限和mapred队列权限验证。可以看看下图原创 2015-11-27 15:51:05 · 512 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(3)—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce JobHist转载 2015-12-09 16:36:32 · 592 阅读 · 0 评论