官方 Hadoop 2.5.2 命令参考（中文翻译版）

最新推荐文章于 2018-09-20 21:46:03 发布

我就是杰哥

最新推荐文章于 2018-09-20 21:46:03 发布

阅读量1.3k

点赞数

分类专栏： Hadoop入门文章标签： hadoop

Hadoop入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

声明：本文为官方英文版的机器翻译版本，仅作学习参考，转载请注明出处
原文地址：http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/CommandsManual.html
翻译版提供：杰哥（http://blog.csdn.net/hipkai）

概述

所有的 hadoop 命令由bin/hadoop脚本调用。运行不带任何参数的 hadoop 脚本打印出所有命令的描述。

使用方法： hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS][COMMAND_OPTIONS]

Hadoop 具有解析通用选项框架，以及运行类的框架的选项。

命令选项	描述
--config confdir	覆盖默认的配置目录。默认值是$HADOOP_HOME/conf.
GENERIC_OPTIONS COMMAND_OPTIONS	共同支持多个命令的选项集。以下各节介绍了各种命令及其选项。命令已被分组到用户命令和行政命令。

通用选项

dfsadmin、fs、fsck、job和fetchdt支持以下选项。应用程序应该实现的工具来支持通用选项。

通用选项	描述
-conf <configuration file>	指定应用程序的配置文件。
-D <property>=<value>	使用价值给出了属性。
-jt <local> or <jobtracker:port>	指定作业跟踪程序。仅适用于工作。
-files <comma separated list of files>	指定以逗号分隔的文件要复制到地图减少群集。仅适用于工作。
-libjars <comma seperated list of jars>	指定以逗号分隔的 jar 文件，以包括在类路径中。仅适用于工作。
-archives <comma separated list of archives>	指定以逗号分隔的档案要存档计算的机器上。仅适用于工作。

用户命令

对于的 hadoop 集群的用户有用的命令。

`archive`

创建一个 hadoop 归档。在 Hadoop 档案，可以找到更多的信息。

使用方法： hadoop archive-archiveName NAME <src>*<dest>

命令选项	描述
-archiveName NAME	要创建归档文件的名称。
src	像往常一样工作，用正则表达式的文件系统路径名。
dest	其中将包含归档文件的目标目录。

distcp

将复制的文件或目录递归。在 Hadoop DistCp 指南，可以找到更多的信息。

用法： hadoop distcp < srcurl>< desturl >

命令选项	描述
srcurl	源 Url
desturl	目标 Url

fs

用法： hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

不推荐使用，请改用hdfs dfs 。

运行通用文件系统用户客户端。

可以在文件系统外壳指南找到各种 COMMAND_OPTIONS。

fsck

运行 HDFS 文件系统检查实用程序。请参阅fsck更多的信息。

使用方法： hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

命令选项	描述
path	开始检查从这条路径。
-move	移动找到的已损坏的文件到 /lost+found
-delete	删除已损坏的文件。
-openforwrite	打印出来打开用于写入的文件。
-files	打印文件被签出。
-blocks	打印出块报告。
-locations	打印出每个块的位置。
-racks	打印出来的数据节点位置的网络拓扑。

fetchdt

获取从 NameNode 的代表令牌。请参阅fetchdt更多的信息。

使用方法： hadoop fetchdt [GENERIC_OPTIONS] [--webservice<namenode_http_addr>] <path>

命令选项	描述
fileName	要存储到令牌的文件名称。
--webservice https_address	使用 http 协议而不是 RPC

jar

运行一个 jar 文件。用户可以将他们的 Map Reduce 代码捆绑在 jar 文件中并执行它使用这个命令。

用法： hadoop jar < jar > [mainClass] args......

通过此命令运行流的作业。可以从流实例引用的例子

字数统计示例也是使用的 jar 命令运行的。它可以从 Wordcount 示例引用

job

命令与Map Reduce Jobs进行交互。

命令选项	描述
-submit job-file	提交作业。
-status job-id	打印地图，并减少完成百分比和作业的所有计数器。
-counter job-id group-name counter-name	打印计数器的值。
-kill job-id	杀死指定ID的作业。
-events job-id from-event-# #-of-events	打印收到的 jobtracker 为给定范围内的事件的详细信息。
-history [all]jobOutputDir	打印作业细节，失败和被杀的提示。通过指定 [all] 选项，可以查看关于成功的任务和任务尝试为每个任务等工作的更多细节。
-list [all]	显示仍未完成的作业。-列出所有显示所有作业。
-kill-task task-id	杀死这项任务。被杀死的任务不计失败的尝试。
-fail-task task-id	失败的任务。对失败的尝试计数失败的任务。
-set-priority job-id priority	更改作业的优先级。允许的优先级值是 VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW

`pipes`

运行管道作业。

用法： hadoop pipes[-conf <path>] [-jobconf<key=value>, <key=value>, ...] [-input <path>] [-output<path>] [-jar <jar file>] [-inputformat<class>] [-map <class>] [-partitioner<class>] [-reduce <class>] [-writer <class>] [-program<executable>] [-reduces <num>]

命令选项	描述
-conf path	配置工作
-jobconf key=value, key=value, ...	添加覆盖配置工作
-input path	输入的目录
-output path	输出目录
-jar jar file	Jar 文件名
-inputformat class	InputFormat 类
-map class	Java Map 类
-partitioner class	Java 的分区程序
-reduce class	Java 减少类
-writer class	Java RecordWriter
-program executable	可执行文件的 URI
-reduces num	数量减少

`queue`

命令交互并查看工作队列信息

使用方法： hadoop queue[-list] | [-info <job-queue-name> [-showJobs]]| [-showacls]

命令选项	描述
-list	获取在系统中配置的工作队列的列表。随着调度与工作队列相关的信息。
-info job-queue-name [-showJobs]	显示工作队列信息和相关的调度信息的特定作业队列。如果存在-showJobs选项，则显示作业提交到特定工作队列的列表。
-showacls	显示队列名称和关联的队列操作允许为当前用户。列表中包括该用户有权访问的那些队列。

`version`

打印版本。

用法： hadoop version

`CLASSNAME`

hadoop 脚本可用于调用的任何类。

用法： hadoopCLASSNAME

运行指定类名的类.

`classpath`

打印需要得到Hadoop jar和所需要的库的类路径。

用法： hadoop classpath

管理命令

有用的 hadoop 集群管理员的命令。

`balancer`

运行群集平衡实用程序。管理员可以只需按下 Ctrl + C 停止再平衡过程。更多详细信息，请参阅平衡器。

使用方法： hadoopbalancer [-threshold <threshold>] [-policy <policy>]

命令选项	描述
-threshold threshold	磁盘容量的百分比计算。这将覆盖默认的阈值。
-policy policy	datanode（默认值）：群集平衡如果每个 datanode 的平衡。 blockpool：如果每个块池在每个 datanode 的平衡平衡群集。

请注意blockpool政策比datanode政策更严格。

daemonlog

获取设置每个守护进程的日志级别。

用法： hadoop daemonlog -getlevel <host:port> <name>

用法: hadoop daemonlog -setlevel <host:port><name> <level>

命令选项	描述
-getlevel host:port name	打印守护进程运行在host:port的日志级别。此命令内部连接到 http://host:port/logLevel?log=name
-setlevel host:port name level	设置在host:port 运行的守护进程的日志级别。此命令内部连接到 http://host:port/logLevel?log=name

datanode

运行 HDFS datanode。

使用方法： hadoop datanode [-rollback]

命令选项	描述
-rollback	回滚 datanode 到以前的版本。这应该停止 datanode 并分发旧的 hadoop 版本之后使用。

dfsadmin

运行 HDFS dfsadmin 客户端。

命令选项	描述
-report	基本的文件系统的信息和统计报告。
-safemode enter / leave / get / wait	安全模式下维护命令。安全模式是在它的 Namenode 状态 1. does not accept changes to the name space (read-only) 2. does not replicate or delete blocks. 安全模式在 Namenode 启动时，将自动输入，并且自动地离开安全模式下，当块的配置最小百分比满足最低复制条件。也可以手动，进入安全模式，但然后它可以仅关闭手动以及。
-refreshNodes	重新读取主机和排除文件，以便更新的数据允许连接到 Namenode 和那些应该退役或派出所的节点集。
-finalizeUpgrade	完成 HDFS 的升级。数据节点删除其以前的版本工作目录，紧接着 Namenode 做同样的事。这就完成升级过程。
-upgradeProgress status / details / force	请求当前分布式升级状态，详细状态或强制升级继续。
-metasave filename	将 Namenode 的主要数据结构保存到由 hadoop.log.dir 属性指定的目录中的文件名。如果它存在，则将覆盖文件名。文件名将包含一条线为下列各项 1. Datanodes heart beating with Namenode 2. Blocks waiting to be replicated 3. Blocks currrently being replicated 4. Blocks waiting to be deleted
-setQuota quota dirname...dirname	设置配额配额的每个目录dirname。目录配额是硬限制放的目录树中的名称数的长整型。如果最大的努力为目录中，其故障报告 1. N is not a positive integer, or 2. user is not an administrator, or 3. the directory does not exist or is a file, or 4. the directory would immediately exceed the new quota.
-clrQuota dirname......dirname	清除每个目录dirname的配额。该目录的最大努力。如果报告的故障 1. the directory does not exist or is a file, or 2. user is not an administrator. It does not fault if the directory has no quota.
-restoreFailedStorage true / false / check	此选项将关闭自动尝试恢复故障的存储副本。如果故障的存储可用再次尝试还原检查点期间的编辑和/或 fsimage 系统。'check' 选项将返回当前设置。
-help [cmd]	如果没有指定显示的帮助为给定的命令或所有命令。

mradmin

运行MR 管理客户端

使用方法： hadoop mradmin [GENERIC_OPTIONS] [-refreshQueueAcls]

命令选项	描述
-refreshQueueAcls	刷新队列 acl hadoop，用于检查期间提交和管理这项工作由用户的访问权限。目前在 mapred 队列 acls.xml 属性是由队列管理器重新加载。

jobtracker

运行 MapReduce 作业跟踪节点。

使用方法： hadoop jobtracker [-dumpConfiguration]

命令选项	描述
-dumpConfiguration	转储 JobTracker 到 jobtracker 所使用的标准输出以 JSON 格式的随着队列配置所使用的配置并退出。

namenode

运行 namenode。更多的信息，关于升级，回滚并最后确定处于升级回滚.

使用方法： hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize]| [-importCheckpoint]

命令选项	描述
-format	格式化 namenode。初始 namenode，设置它的格式，然后将其关闭。
-upgrade	Namenode 应该开始与升级后的新版 hadoop 分布选项。
-rollback	Rollsback namenode 到以前的版本。这应该用于后停止群集和分发旧的 hadoop 版本。
-finalize	敲定将删除以前的文件系统的状态。最近的升级将成为常任理事国。回滚选项将不可用了。完成后关闭 namenode。
-importCheckpoint	加载图像从检查站目录和将它保存到当前。检查点 dir 是读取属性 fs.checkpoint.dir

secondarynamenode

运行 HDFS 二级 namenode。更多的信息，请参阅辅助 Namenode 。

使用方法： hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

命令选项	描述
-checkpoint [-force]	检查站中学 namenode 如果 EditLog 大小 > = fs.checkpoint.size。如果-力使用，则不论 EditLog 大小的检查站。
-geteditsize	打印的 EditLog 大小。