声明:本文为官方英文版的机器翻译版本,仅作学习参考,转载请注明出处
原文地址:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/CommandsManual.html
翻译版提供:杰哥(http://blog.csdn.net/hipkai)
所有的 hadoop 命令由bin/hadoop脚本调用。运行不带任何参数的 hadoop 脚本打印出所有命令的描述。
使用方法: hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS][COMMAND_OPTIONS]
Hadoop 具有解析通用选项框架,以及运行类的框架的选项。
命令选项 | 描述 |
--config confdir | 覆盖默认的配置目录。默认值是$HADOOP_HOME/conf. |
GENERIC_OPTIONS COMMAND_OPTIONS | 共同支持多个命令的选项集。以下各节介绍了各种命令及其选项。命令已被分组到用户命令和行政命令。 |
通用选项
dfsadmin、fs、fsck、job和fetchdt支持以下选项。应用程序应该实现的工具来支持通用选项。
通用选项 | 描述 |
-conf <configuration file> | 指定应用程序的配置文件。 |
-D <property>=<value> | 使用价值给出了属性。 |
-jt <local> or <jobtracker:port> | 指定作业跟踪程序。仅适用于工作。 |
-files <comma separated list of files> | 指定以逗号分隔的文件要复制到地图减少群集。仅适用于工作。 |
-libjars <comma seperated list of jars> | 指定以逗号分隔的 jar 文件,以包括在类路径中。仅适用于工作。 |
-archives <comma separated list of archives> | 指定以逗号分隔的档案要存档计算的机器上。仅适用于工作。 |
用户命令
对于的 hadoop 集群的用户有用的命令。
archive
创建一个 hadoop 归档。在 Hadoop 档案,可以找到更多的信息。
使用方法: hadoop archive-archiveName NAME <src>*<dest>
命令选项 | 描述 |
-archiveName NAME | 要创建归档文件的名称。 |
src | 像往常一样工作,用正则表达式的文件系统路径名。 |
dest | 其中将包含归档文件的目标目录。 |
distcp
将复制的文件或目录递归。在 Hadoop DistCp 指南,可以找到更多的信息。
用法: hadoop distcp < srcurl>< desturl >
命令选项 | 描述 |
srcurl | 源 Url |
desturl | 目标 Url |
fs
用法: hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]
不推荐使用,请改用hdfs dfs 。
运行通用文件系统用户客户端。
可以在文件系统外壳指南找到各种 COMMAND_OPTIONS。
fsck
运行 HDFS 文件系统检查实用程序。请参阅fsck更多的信息。
使用方法: hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
命令选项 | 描述 |
path | 开始检查从这条路径。 |
-move | 移动找到的已损坏的文件到 /lost+found |
-delete | 删除已损坏的文件。 |
-openforwrite | 打印出来打开用于写入的文件。 |
-files | 打印文件被签出。 |
-blocks | 打印出块报告。 |
-locations | 打印出每个块的位置。 |
-racks | 打印出来的数据节点位置的网络拓扑。 |
fetchdt
获取从 NameNode 的代表令牌。请参阅fetchdt更多的信息。
使用方法: hadoop fetchdt [GENERIC_OPTIONS] [--webservice<namenode_http_addr>] <path>
命令选项 | 描述 |
fileName | 要存储到令牌的文件名称。 |
--webservice https_address | 使用 http 协议而不是 RPC |
jar
运行一个 jar 文件。用户可以将他们的 Map Reduce 代码捆绑在 jar 文件中并执行它使用这个命令。
用法: hadoop jar < jar > [mainClass] args......
通过此命令运行流的作业。可以从流实例引用的例子
字数统计示例也是使用的 jar 命令运行的。它可以从 Wordcount 示例引用
job
命令与Map Reduce Jobs进行交互。
使用方法: hadoop job [GENERIC_OPTIONS] [-submit<job-file>] | [-status <job-id>] | [-counter <job-id><group-name> <counter-name>] | [-kill <job-id>] | [-events<job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task<task-id>] | [-fail-task <task-id>] | [-set-priority <job-id><priority>]
命令选项 | 描述 |
-submit job-file | 提交作业。 |
-status job-id | 打印地图,并减少完成百分比和作业的所有计数器。 |
-counter job-id group-name counter-name | 打印计数器的值。 |
-kill job-id | 杀死指定ID的作业。 |
-events job-id from-event-# #-of-events | 打印收到的 jobtracker 为给定范围内的事件的详细信息。 |
-history [all]jobOutputDir | 打印作业细节,失败和被杀的提示。通过指定 [all] 选项,可以查看关于成功的任务和任务尝试为每个任务等工作的更多细节。 |
-list [all] | 显示仍未完成的作业。-列出所有显示所有作业。 |
-kill-task task-id | 杀死这项任务。被杀死的任务不计失败的尝试。 |
-fail-task task-id | 失败的任务。对失败的尝试计数失败的任务。 |
-set-priority job-id priority | 更改作业的优先级。允许的优先级值是 VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW |
pipes
运行管道作业。
用法: hadoop pipes[-conf <path>] [-jobconf<key=value>, <key=value>, ...] [-input <path>] [-output<path>] [-jar <jar file>] [-inputformat<class>] [-map <class>] [-partitioner<class>] [-reduce <class>] [-writer <class>] [-program<executable>] [-reduces <num>]
命令选项 | 描述 |
-conf path | 配置工作 |
-jobconf key=value, key=value, ... | 添加覆盖配置工作 |
-input path | 输入的目录 |
-output path | 输出目录 |
-jar jar file | Jar 文件名 |
-inputformat class | InputFormat 类 |
-map class | Java Map 类 |
-partitioner class | Java 的分区程序 |
-reduce class | Java 减少类 |
-writer class | Java RecordWriter |
-program executable | 可执行文件的 URI |
-reduces num | 数量减少 |
queue
命令交互并查看工作队列信息
使用方法: hadoop queue[-list] | [-info <job-queue-name> [-showJobs]]| [-showacls]
命令选项 | 描述 |
-list | 获取在系统中配置的工作队列的列表。随着调度与工作队列相关的信息。 |
-info job-queue-name [-showJobs] | 显示工作队列信息和相关的调度信息的特定作业队列。如果存在-showJobs选项,则显示作业提交到特定工作队列的列表。 |
-showacls | 显示队列名称和关联的队列操作允许为当前用户。列表中包括该用户有权访问的那些队列。 |
version
打印版本。
用法: hadoop version
CLASSNAME
hadoop 脚本可用于调用的任何类。
用法: hadoopCLASSNAME
运行指定类名的类.
classpath
打印需要得到Hadoop jar和所需要的库的类路径。
用法: hadoop classpath
管理命令
有用的 hadoop 集群管理员的命令。
balancer
运行群集平衡实用程序。管理员可以只需按下 Ctrl + C 停止再平衡过程。更多详细信息,请参阅平衡器。
使用方法: hadoopbalancer [-threshold <threshold>] [-policy <policy>]
命令选项 | 描述 |
-threshold threshold | 磁盘容量的百分比计算。这将覆盖默认的阈值。 |
-policy policy | datanode(默认值): 群集平衡如果每个 datanode 的平衡。 |
请注意blockpool政策比datanode政策更严格。
daemonlog
获取设置每个守护进程的日志级别。
用法: hadoop daemonlog -getlevel <host:port> <name>
用法: hadoop daemonlog -setlevel <host:port><name> <level>
命令选项 | 描述 |
-getlevel host:port name | 打印守护进程运行在host:port的日志级别。此命令内部连接到 http://host:port/logLevel?log=name |
-setlevel host:port name level | 设置在host:port 运行的守护进程的日志级别。此命令内部连接到 http://host:port/logLevel?log=name |
datanode
运行 HDFS datanode。
使用方法: hadoop datanode [-rollback]
命令选项 | 描述 |
-rollback | 回滚 datanode 到以前的版本。这应该停止 datanode 并分发旧的 hadoop 版本之后使用。 |
dfsadmin
运行 HDFS dfsadmin 客户端。
使用方法: hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemodeenter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgressstatus | details | force] [-metasave filename] [-setQuota <quota> <dirname>...<dirname>] [-clrQuota <dirname>...<dirname>] [-restoreFailedStorage true|false|check][-help [cmd]]
命令选项 | 描述 |
-report | 基本的文件系统的信息和统计报告。 |
-safemode enter / leave / get / wait | 安全模式下维护命令。安全模式是在它的 Namenode 状态 |
-refreshNodes | 重新读取主机和排除文件,以便更新的数据允许连接到 Namenode 和那些应该退役或派出所的节点集。 |
-finalizeUpgrade | 完成 HDFS 的升级。数据节点删除其以前的版本工作目录,紧接着 Namenode 做同样的事。这就完成升级过程。 |
-upgradeProgress status / details / force | 请求当前分布式升级状态,详细状态或强制升级继续。 |
-metasave filename | 将 Namenode 的主要数据结构保存到由 hadoop.log.dir 属性指定的目录中的文件名。如果它存在,则将覆盖文件名。文件名将包含一条线为下列各项 |
-setQuota quota dirname...dirname | 设置配额配额的每个目录dirname。目录配额是硬限制放的目录树中的名称数的长整型。如果最大的努力为目录中,其故障报告 |
-clrQuota dirname......dirname | 清除每个目录dirname的配额。该目录的最大努力。如果报告的故障 |
-restoreFailedStorage true / false / check | 此选项将关闭自动尝试恢复故障的存储副本。如果故障的存储可用再次尝试还原检查点期间的编辑和/或 fsimage 系统。'check' 选项将返回当前设置。 |
-help [cmd] | 如果没有指定显示的帮助为给定的命令或所有命令。 |
mradmin
运行MR 管理客户端
使用方法: hadoop mradmin [GENERIC_OPTIONS] [-refreshQueueAcls]
命令选项 | 描述 |
-refreshQueueAcls | 刷新队列 acl hadoop,用于检查期间提交和管理这项工作由用户的访问权限。目前在 mapred 队列 acls.xml 属性是由队列管理器重新加载。 |
jobtracker
运行 MapReduce 作业跟踪节点。
使用方法: hadoop jobtracker [-dumpConfiguration]
命令选项 | 描述 |
-dumpConfiguration | 转储 JobTracker 到 jobtracker 所使用的标准输出以 JSON 格式的随着队列配置所使用的配置并退出。 |
namenode
运行 namenode。更多的信息,关于升级,回滚并最后确定处于升级回滚.
使用方法: hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize]| [-importCheckpoint]
命令选项 | 描述 |
-format | 格式化 namenode。初始 namenode,设置它的格式,然后将其关闭。 |
-upgrade | Namenode 应该开始与升级后的新版 hadoop 分布选项。 |
-rollback | Rollsback namenode 到以前的版本。这应该用于后停止群集和分发旧的 hadoop 版本。 |
-finalize | 敲定将删除以前的文件系统的状态。最近的升级将成为常任理事国。回滚选项将不可用了。完成后关闭 namenode。 |
-importCheckpoint | 加载图像从检查站目录和将它保存到当前。检查点 dir 是读取属性 fs.checkpoint.dir |
secondarynamenode
运行 HDFS 二级 namenode。更多的信息,请参阅辅助 Namenode 。
使用方法: hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
命令选项 | 描述 |
-checkpoint [-force] | 检查站中学 namenode 如果 EditLog 大小 > = fs.checkpoint.size。如果-力使用,则不论 EditLog 大小的检查站。 |
-geteditsize | 打印的 EditLog 大小。 |
tasktracker
运行 MapReduce 任务跟踪节点。
用法: hadoop tasktracker