官方 Hadoop 2.5.2 命令参考(中文翻译版)

声明:本文为官方英文版的机器翻译版本,仅作学习参考,转载请注明出处
原文地址:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/CommandsManual.html
翻译版提供:杰哥(http://blog.csdn.net/hipkai

概述

所有的 hadoop 命令由bin/hadoop脚本调用。运行不带任何参数的 hadoop 脚本打印出所有命令的描述。

使用方法: hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS][COMMAND_OPTIONS]

Hadoop 具有解析通用选项框架,以及运行类的框架的选项。

命令选项

描述

--config confdir

覆盖默认的配置目录。默认值是$HADOOP_HOME/conf.

GENERIC_OPTIONS COMMAND_OPTIONS

共同支持多个命令的选项集。以下各节介绍了各种命令及其选项。命令已被分组到用户命令和行政命令。

通用选项

dfsadminfsfsckjobfetchdt支持以下选项。应用程序应该实现的工具来支持通用选项。

通用选项

描述

-conf <configuration file>

指定应用程序的配置文件。

-D <property>=<value>

使用价值给出了属性。

-jt <local> or <jobtracker:port>

指定作业跟踪程序。仅适用于工作。

-files <comma separated list of files>

指定以逗号分隔的文件要复制到地图减少群集。仅适用于工作。

-libjars <comma seperated list of jars>

指定以逗号分隔的 jar 文件,以包括在类路径中。仅适用于工作。

-archives <comma separated list of archives>

指定以逗号分隔的档案要存档计算的机器上。仅适用于工作。

用户命令

对于的 hadoop 集群的用户有用的命令。

archive

创建一个 hadoop 归档。在 Hadoop 档案,可以找到更多的信息。

使用方法: hadoop archive-archiveName NAME <src>*<dest>

命令选项

描述

-archiveName NAME

要创建归档文件的名称。

src

像往常一样工作,用正则表达式的文件系统路径名。

dest

其中将包含归档文件的目标目录。

distcp

将复制的文件或目录递归。在 Hadoop DistCp 指南,可以找到更多的信息。

用法: hadoop distcp < srcurl>< desturl >

命令选项

描述

srcurl

Url

desturl

目标 Url

fs

用法: hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

不推荐使用,请改用hdfs dfs

运行通用文件系统用户客户端。

可以在文件系统外壳指南找到各种 COMMAND_OPTIONS

fsck

运行 HDFS 文件系统检查实用程序。请参阅fsck更多的信息。

使用方法: hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

命令选项

描述

path

开始检查从这条路径。

-move

移动找到的已损坏的文件到 /lost+found

-delete

删除已损坏的文件。

-openforwrite

打印出来打开用于写入的文件。

-files

打印文件被签出。

-blocks

打印出块报告

-locations

打印出每个块的位置。

-racks

打印出来的数据节点位置的网络拓扑。

fetchdt

获取从 NameNode 的代表令牌。请参阅fetchdt更多的信息。

使用方法: hadoop fetchdt [GENERIC_OPTIONS] [--webservice<namenode_http_addr>] <path>

命令选项

描述

fileName

要存储到令牌的文件名称。

--webservice https_address

使用 http 协议而不是 RPC

jar

运行一个 jar 文件。用户可以将他们的 Map Reduce 代码捆绑在 jar 文件中并执行它使用这个命令。

用法: hadoop jar < jar > [mainClass] args......

通过此命令运行流的作业。可以从流实例引用的例子

字数统计示例也是使用的 jar 命令运行的。它可以从 Wordcount 示例引用

job

命令与Map Reduce Jobs进行交互。

使用方法: hadoop job [GENERIC_OPTIONS] [-submit<job-file>] | [-status <job-id>] | [-counter <job-id><group-name> <counter-name>] | [-kill <job-id>] | [-events<job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task<task-id>] | [-fail-task <task-id>] | [-set-priority <job-id><priority>]

命令选项

描述

-submit job-file

提交作业。

-status job-id

打印地图,并减少完成百分比和作业的所有计数器。

-counter job-id group-name counter-name

打印计数器的值。

-kill job-id

杀死指定ID的作业。

-events job-id from-event-# #-of-events

打印收到的 jobtracker 为给定范围内的事件的详细信息。

-history [all]jobOutputDir

打印作业细节,失败和被杀的提示。通过指定 [all] 选项,可以查看关于成功的任务和任务尝试为每个任务等工作的更多细节。

-list [all]

显示仍未完成的作业。-列出所有显示所有作业。

-kill-task task-id

杀死这项任务。被杀死的任务不计失败的尝试。

-fail-task task-id

失败的任务。对失败的尝试计数失败的任务。

-set-priority job-id priority

更改作业的优先级。允许的优先级值是 VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW

pipes

运行管道作业。

用法: hadoop pipes[-conf <path>] [-jobconf<key=value>, <key=value>, ...] [-input <path>] [-output<path>] [-jar <jar file>] [-inputformat<class>] [-map <class>] [-partitioner<class>] [-reduce <class>] [-writer <class>] [-program<executable>] [-reduces <num>]

命令选项

描述

-conf path

配置工作

-jobconf key=value, key=value, ...

添加覆盖配置工作

-input path

输入的目录

-output path

输出目录

-jar jar file

Jar 文件名

-inputformat class

InputFormat

-map class

Java Map

-partitioner class

Java 的分区程序

-reduce class

Java 减少类

-writer class

Java RecordWriter

-program executable

可执行文件的 URI

-reduces num

数量减少

queue

命令交互并查看工作队列信息

使用方法: hadoop queue[-list] | [-info <job-queue-name> [-showJobs]]| [-showacls]

命令选项

描述

-list

获取在系统中配置的工作队列的列表。随着调度与工作队列相关的信息。

-info job-queue-name [-showJobs]

显示工作队列信息和相关的调度信息的特定作业队列。如果存在-showJobs选项,则显示作业提交到特定工作队列的列表。

-showacls

显示队列名称和关联的队列操作允许为当前用户。列表中包括该用户有权访问的那些队列。

version

打印版本。

用法: hadoop version

CLASSNAME

hadoop 脚本可用于调用的任何类。

用法: hadoopCLASSNAME

运行指定类名的类.

classpath

打印需要得到Hadoop jar和所需要的库的类路径。

用法: hadoop classpath

管理命令

有用的 hadoop 集群管理员的命令。

balancer

运行群集平衡实用程序。管理员可以只需按下 Ctrl + C 停止再平衡过程。更多详细信息,请参阅平衡器

使用方法: hadoopbalancer [-threshold <threshold>] [-policy <policy>]

命令选项

描述

-threshold threshold

磁盘容量的百分比计算。这将覆盖默认的阈值。

-policy policy

datanode(默认值): 群集平衡如果每个 datanode 的平衡。
blockpool
如果每个块池在每个 datanode 平衡平衡群集。

请注意blockpool政策比datanode政策更严格。

daemonlog

获取设置每个守护进程的日志级别。

用法: hadoop daemonlog -getlevel <host:port> <name>

用法: hadoop daemonlog -setlevel <host:port><name> <level>

命令选项

描述

-getlevel host:port name

打印守护进程运行在host:port的日志级别。此命令内部连接到 http://host:port/logLevel?log=name

-setlevel host:port name level

设置在host:port 运行的守护进程的日志级别。此命令内部连接到 http://host:port/logLevel?log=name

datanode

运行 HDFS datanode

使用方法: hadoop datanode [-rollback]

命令选项

描述

-rollback

回滚 datanode 到以前的版本。这应该停止 datanode 并分发旧的 hadoop 版本之后使用。

dfsadmin

运行 HDFS dfsadmin 客户端。

使用方法: hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemodeenter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgressstatus | details | force] [-metasave filename] [-setQuota <quota> <dirname>...<dirname>] [-clrQuota <dirname>...<dirname>] [-restoreFailedStorage true|false|check][-help [cmd]]

命令选项

描述

-report

基本的文件系统的信息和统计报告。

-safemode enter / leave / get / wait

安全模式下维护命令。安全模式是在它的 Namenode 状态
1.
does not accept changes to the name space (read-only)  
2.
does not replicate or delete blocks.
安全模式在 Namenode 启动时,将自动输入,并且自动地离开安全模式下,当块的配置最小百分比满足最低复制条件。也可以手动,进入安全模式,但然后它可以仅关闭手动以及。

-refreshNodes

重新读取主机和排除文件,以便更新的数据允许连接到 Namenode 和那些应该退役或派出所的节点集。

-finalizeUpgrade

完成 HDFS 的升级。数据节点删除其以前的版本工作目录,紧接着 Namenode 做同样的事。这就完成升级过程。

-upgradeProgress status / details / force

请求当前分布式升级状态,详细状态或强制升级继续。

-metasave filename

Namenode 的主要数据结构保存到由 hadoop.log.dir 属性指定的目录中的文件名。如果它存在,则将覆盖文件名。文件名将包含一条线为下列各项
1. Datanodes heart beating with Namenode 
2. Blocks waiting to be replicated 
3. Blocks currrently being replicated 
4. Blocks waiting to be deleted 

-setQuota quota dirname...dirname

设置配额配额的每个目录dirname。目录配额是硬限制放的目录树中的名称数的长整型。如果最大的努力为目录中,其故障报告
1. N is not a positive integer, or  
2. user is not an administrator, or  
3. the directory does not exist or is a file, or  
4. the directory would immediately exceed the new quota.  

-clrQuota dirname......dirname

清除每个目录dirname的配额。该目录的最大努力。如果报告的故障
1. the directory does not exist or is a file, or  
2. user is not an administrator. It does not fault if the directory has no quota.

-restoreFailedStorage true / false / check

此选项将关闭自动尝试恢复故障的存储副本。如果故障的存储可用再次尝试还原检查点期间的编辑和/ fsimage 系统。'check' 选项将返回当前设置。

-help [cmd]

如果没有指定显示的帮助为给定的命令或所有命令。

mradmin

运行MR 管理客户端

使用方法: hadoop mradmin [GENERIC_OPTIONS] [-refreshQueueAcls]

命令选项

描述

-refreshQueueAcls

刷新队列 acl hadoop,用于检查期间提交和管理这项工作由用户的访问权限。目前在 mapred 队列 acls.xml 属性是由队列管理器重新加载。

jobtracker

运行 MapReduce 作业跟踪节点。

使用方法: hadoop jobtracker [-dumpConfiguration]

命令选项

描述

-dumpConfiguration

转储 JobTracker jobtracker 所使用的标准输出以 JSON 格式的随着队列配置所使用的配置并退出。

namenode

运行 namenode。更多的信息,关于升级,回滚并最后确定处于升级回滚.

使用方法: hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize]| [-importCheckpoint]

命令选项

描述

-format

格式化 namenode。初始 namenode,设置它的格式,然后将其关闭。

-upgrade

Namenode 应该开始与升级后的新版 hadoop 分布选项。

-rollback

Rollsback namenode 到以前的版本。这应该用于后停止群集和分发旧的 hadoop 版本。

-finalize

敲定将删除以前的文件系统的状态。最近的升级将成为常任理事国。回滚选项可用了。完成后关闭 namenode

-importCheckpoint

加载图像从检查站目录和将它保存到当前。检查点 dir 是读取属性 fs.checkpoint.dir

secondarynamenode

运行 HDFS 二级 namenode。更多的信息,请参阅辅助 Namenode

使用方法: hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

命令选项

描述

-checkpoint [-force]

检查站中学 namenode 如果 EditLog 大小 > = fs.checkpoint.size。如果-力使用,则不论 EditLog 大小的检查站。

-geteditsize

打印的 EditLog 大小。

tasktracker

运行 MapReduce 任务跟踪节点。

用法: hadoop tasktracker

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值