DistCp 介绍
DistCp( distributed copy )是用于大型内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。
Distcp用法
基本用法
集群间复制
# nn1是源集群,nn2是目标集群
hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
这会将nn1 上的/foo/bar
下的命名空间扩展为一个临时文件, 将其内容划分到一组map任务中,并在每个NodeManager上执行从nn1到nn2的拷贝任务。
指定多个源目录
hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn1:8020/foo/b
hdfs://nn2:8020/bar/foo
或者使用 -f 选项,从文件中获取多个源:
hadoop distcp -f hdfs://nn1:8020/srclist hdfs://nn2:8020/bar/foo
其中srclist
的内容:
hdfs://nn1:8020/foo/a
hdfs://nn1:8020/foo/b
指定map数
# -m 参数指定map数,即并行度
hadoop distcp -m 30 hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
指定拷贝策略
# -overwrite 覆盖目标
hadoop distcp -overwrite hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
# -update 源文件和目标文件大小、块大小和校验和不同则覆盖
hadoop distcp -update hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
指定运行参数
# -D 指定运行参数,可指定多个参数
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
命令行选项
标识 | 描述 | 备注 |
---|---|---|
-p[rbugpaxt] | Preserve r: replication number b: block size u: user g: group p: permission c: checksum-type a: ACL x: XAttr t: timestamp | 当指定-update时,状态更新将不会同步,除非文件大小也不同(即文件被重新创建)。如果指定了-pa, DistCp也会保留权限,因为acl是权限的超集。选项-pr只有在源目录和目标目录都没有被擦除编码时才有效。 |
-i | 忽略失败 | 就像在附录中提到的,这个选项会比默认情况提供关于拷贝的更精确的统计, 同时它还将保留失败拷贝操作的日志,这些日志信息可以用于调试。最后,如果一个map失败了,但并没完成所有分块任务的尝试,这不会导致整个作业的失败。 |
-log <logdir> | 写入日志的目录 | DistCp为每个文件的每次尝试拷贝的操作都记录日志,并把日志作为map的输出。 如果一个map失败了,当重新执行这个map时,这个日志不会被保留。 |
-v | 在 SKIP/COPY 日志中记录附加信息(路径、大小) | 此选项只能与 -log 选项一起使用。 |
-m <num_maps> | 同时拷贝的最大数量 | 指定了拷贝数据时map的数目。请注意,并不是map数越多吞吐量越大。 |
-overwrite | 覆盖目标 | 如果map失败且未指定-i ,则拆分中的所有文件(不仅是失败的文件)都将被重新拷贝。正如使用文档中所说到的那样,它还更改了生成目标路径的语义,因此用户应谨慎使用它。 |
-update | 如果源和目标的大小、块大小或校验和不同,则覆盖 | 如前所述,这不是“sync”操作。检查的标准是源和目标文件大小、块大小和校验和;如果它们不同,源文件将替换目标文件。正如使用文档中所讨论的那样,它还更改了生成目标路径的语义,因此用户应谨慎使用它。 |
-append | 具有相同名称但不同长度的文件的增量副本 | 如果源文件的长度大于目标文件的长度,则比较公共长度部分的校验和。如果校验和匹配,则使用读取和附加功能仅复制差异部分。-append 选项仅适用于-update ,不适用于-skipcrccheck |
-f <urilist_uri> | 使用 <urilist_uri> 中的列表作为 src 列表 | 这相当于在命令行中列出每个源目录。urilist_uri列表应该是一个完全合法的URI。 |
-filters | 一个包含正则表达式列表的文件的路径,该文件中每行一个正则表达式。与正则表达式匹配的路径将从拷贝任务中排除。 | 支持 java.util.regex.Pattern 指定的正则表达式。 |
-filelimit <n> | 限制文件总数小于等于n | 已弃用!在新的 DistCp 中被忽略。 |
-sizelimit <n> | 限制总大小为小于等于n字节 | 已弃用!在新的 DistCp 中被忽略。 |
-delete | 删除dst中存在但src中不存在的文件 | 删除是由 FS Shell 完成的。因此,如果它被使用,trash也将被使用。删除仅适用于-update 或-overwrite 选项。 |
-strategy{dynamic|uniformsize} | 选择要在 DistCp 中使用的复制策略。 | 默认情况下,使用uniformsize。Map根据每个map复制的文件的总大小进行平衡,类似于遗留。如果指定了“dynamic”,则使用DynamicInputFormat 。 |
-bandwidth | 指定每个map的带宽,单位是MB/秒 | 每个map将被限制仅使用指定的带宽。这并不一定是精确的。在复制期间,map会减少其带宽消耗,使所使用的网络带宽趋向于指定的值。 |
-atomic {-tmp <tmp_dir>} | 指定原子提交,带有可选的tmp目录。 | -atomic 命令DistCp将源数据复制到一个临时目录,然后将临时目录原子移动到最终目录。数据要么以完整一致的形式在最终目录处可用,要么完全不可用。可选项,-tmp 可以用来指定临时目录位置。如果未指定,则选择默认值。注意:临时目录必须在最终目录的集群上。 |
-async | 异步运行 DistCp。Hadoop 作业启动后立即退出。 | Hadoop Job-id被记录下来,以便跟踪。 |
-diff <oldSnapshot> <newSnapshot> | 使用给定两个快照之间的快照差异报告来识别源和目标之间的差异,并将差异应用于目标,使其与源同步。 | 此选项仅与 2. 在源FS上已经创建了两个快照<oldSnapshot>和<newSnapshot>,且<oldSnapshot>比<newSnapshot>早。 3. 目标具有相同的快照<oldSnapshot>。自从创建<oldSnapshot>以来,没有对目标做任何更改,因此<oldSnapshot>的内容与目标的当前状态相同。目标中的所有文件/目录与源的<oldSnapshot>相同。 |
-rdiff <newSnapshot> <oldSnapshot> | 使用给定两个快照之间的快照差异报告,以确定自从在目标上创建快照<oldSnapshot>以来,目标上发生了哪些更改,并将差异反向应用到目标,并从源的<oldSnapshot>复制修改后的文件,使目标与<oldSnapshot>相同。 | 此选项仅与 2. 在目标FS上已经创建了两个快照<newSnapshot>和<oldSnapshot>,且<oldSnapshot>比<newSnapshot>早。自从在目标上创建<newSnapshot>以来,没有在目标上做任何更改。 3. 源有相同的快照<oldSnapshot>,它的内容与目标上的<oldSnapshot>相同。目标的<oldSnapshot>中的所有文件或目录与源的<oldSnapshot>相同。 |
-numListstatusThreads | 用于构建文件列表的线程数 | 最多 40 个线程。 |
-skipcrccheck | 是否跳过源路径和目标路径之间的 CRC 检查。 | |
-blocksperchunk <blocksperchunk> | 每个块的块数。指定后,将文件分割成块以并行复制。 | 如果设置为正值,大于这个值的块将被分割成<blocksperchunk>块的块,以便并行传输,并在目标上重新组装。默认情况下,<blocksperchunk>是0,文件将被完整地传输,而不会被分割。此开关仅适用于源文件系统实现了getBlockLocations方法,目标文件系统实现了concat方法的情况。 |
-copybuffersize <copybuffersize> | 要使用的复制缓冲区的大小。默认情况下,<copybuffersize>设置为8192B | |
-xtrack <path> | 将缺少源文件的信息保存到指定路径。 | 此选项仅对-update 选项有效。这是一个实验属性,不能与-atomic 选项一起使用。 |
-direct | 直接写入目标路径 | 当目标是对象存储时,可用于避免可能非常昂贵的临时文件重命名操作。 |