使用distcp命令跨集群传输数据

最新推荐文章于 2023-08-28 17:32:24 发布

TURING.DT

最新推荐文章于 2023-08-28 17:32:24 发布

阅读量1w

点赞数

分类专栏： HADOOP

本文链接：https://blog.csdn.net/levy_cui/article/details/53404966

版权

HADOOP 专栏收录该内容

81 篇文章 2 订阅

订阅专栏

Java API等多种接口对HDFS访问模型都集中于单线程的存取，如果要对一个文件集进行操作，就需要编写一个程序来执行并行操作。HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上，那么可以使用HDFS模式:
hadoop distcp hdfs://NameNode01/old hdfs://NEWNameNode01/new

这条命令会将第一个集群中的/old文件夹以及文件夹下的文件复制到第二个集群中的/new目录下，即在第二个集群中会以/new/old的目录结构出现。如果/new目录不存在，则系统会新建一个。也可以指定多个数据源，并且所有的内容都会被复制到目标路径。需要注意的是，源路径必须是绝对路径。即 hdfs://NameNode1/old

默认情况下，虽然distcp会跳过在目标路径上已经存在的文件，但是通过-overwirte选项可以选择对这些文件进行覆盖重写，也可以使用，-update选项仅对更新过的文件进行重写。

distcp操作有很多选项可以设置，比如忽略失败、限制文件或者复制的数据量等。直接输入指令或者不附加选项则可以查看此操作的使用说明。即distcp。具体实现时，distcp操作会被解析为一个MapReduce操作来执行，当没有Reducer操作时，复制操作被作为Map操作并行地在集群节点中运行。因此，每个文件都可被当做一个Map操作来执行复制操作。而distcp会通过执行多个文件聚集捆绑操作，尽可能地保证每个Map操作执行相同数量的数据。那么，执行distcp时，Map操作如何确定呢?由于系统需要保证每个Map操作执行的数据量是合理的，来最大化地减少Map执行的开销，而按规定，每个Map最少要执行256MB的数据量(除非复制的全部数据量小于256MB)。

比如要复制1GB的数据，那么系统就会分配4个Map任务，当数据量非常大时，就需要限制执行的Map任务数，以限制网络带宽和集群的使用率。默认情况下，每个集群的一个节点最多执行20个Map任务。

比如，要复制1000GB数据到100节点的集群中，那么系统就会分配2000个Map任务(每个节点20个)，也就是说，每个节点会平均复制512MB。还可以通过调整distcp的-m参数来减少Map任务量，比如-m 1000就意味着分配1000个Maps,每个节点分配1GB数据量。

如果尝试使用distcp进行HDFS集群间的复制，使用HDFS模式之后，HDFS运行在不同的Hadoop版本之上，复制将会因为RPC系统的不匹配而失败。为了纠正这个错误，可以使用基干HTTP的HFTP进行访问。因为任务要在目标集群中执行，所以HDFS的RPC版本需要匹配，在HFTF模式下运行的代码如下:

hadoop distcp hftp://NameNode01:50070/old hdfs://NEWNameNode01/new

一个文件的复制
hadoop distcp hftp://192.168.2.50:50070/user/log.txt hdfs://192.168.2.50/tmp

需要注意的是，要定义访问源的URI中NameNode的网络接口，这个接口会通过dfs.http.address的属性值设定，默认值为50070.

distcp即dist分布式，cp复制。用于在集群内部及集群之间复制数据。即分布式复制。

例子：
使用distcp.bytes.per.map控制map数量，mapreduce.job.queuename指定队列，mapreduce.job.name指定job名称
hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Dmapreduce.job.queuename=hive -Dmapreduce.job.name=cpdata hdfs://cloudcluster/apps/hive/warehouse/db/data hdfs://192.168.2.16:8020/user/hive/warehouse/db/data

附录

Map数目
distcp会尝试着均分需要拷贝的内容，这样每个map拷贝差不多相等大小的内容。但因为文件是最小的拷贝粒度，所以配置增加同时拷贝（如map）的数目不一定会增加实际同时拷贝的数目以及总吞吐量。
如果没使用-m选项，distcp会尝试在调度工作时指定map的数目为 min (total_bytes / bytes.per.map, 20 * num_task_trackers)，其中bytes.per.map默认是256MB。
建议对于长时间运行或定期运行的作业，根据源和目标集群大小、拷贝数量大小以及带宽调整map的数目。

hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Ddfs.client.socket-timeout=240000000 -Dipc.client.connect.timeout=40000000 -i -update hdfs://master1:8020/foo/a hdfs://master1:8020/foo/b hdfs://master2:8020/bar/foo

不同HDFS版本间的拷贝
对于不同Hadoop版本间的拷贝，用户应该使用HftpFileSystem。这是一个只读文件系统，所以distcp必须运行在目标端集群上（更确切的说是在能够写入目标集群的TaskTracker上）。源的格式是 hftp://<dfs.http.address>/<path> （默认情况dfs.http.address是 <namenode>:50070）。
Map/Reduce和副效应。
像前面提到的，map拷贝输入文件失败时，会带来一些副效应。
除非使用了-i，任务产生的日志会被新的尝试替换掉。
除非使用了-overwrite，文件被之前的map成功拷贝后当又一次执行拷贝时会被标记为 "被忽略"。
如果map失败了mapred.map.max.attempts次，剩下的map任务会被终止（除非使用了-i)。

如果mapred.speculative.execution被设置为 final和true，则拷贝的结果是未定义的。

参考:

http://blog.csdn.net/stark_summer/article/details/45869945

http://www.cnblogs.com/zlslch/p/5140849.html

TURING.DT

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用distcp命令跨集群传输数据

Java API等多种接口对HDFS访问模型都集中于单线程的存取，如果要对一个文件集进行操作，就需要编写一个程序来执行并行操作。HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上，那么可以使用HDFS模式:hadoop distcp hdf
复制链接

扫一扫