跨平台传输方案

最新推荐文章于 2024-08-13 14:11:58 发布

weixin_30342827

最新推荐文章于 2024-08-13 14:11:58 发布

阅读量567

点赞数

文章标签：操作系统大数据 java

原文链接：http://www.cnblogs.com/BlackString/p/10553010.html

版权

最近在做一个小任务，将一个CDH平台中Hive的部分数据同步到另一个平台中。毕竟我也刚开始工作，在正式开始做之前，首先进行了一段时间的练习，下面的内容就是练习时写的文档中的内容。如果哪里有错误或者疏漏，希望各位网友能够指出。

第一篇：HDFS的上传与下载：https://www.cnblogs.com/BlackString/p/10552553.html

第二篇：Hive中数据的导入与导出：https://www.cnblogs.com/BlackString/p/10552806.html

第三篇：Hive分区表的导入与导出：https://www.cnblogs.com/BlackString/p/10552901.html

跨集群传输文件

1. 跨集群传输文件的几种方式

　　跨集群传输文件，据我现在所知的，有两种方式，分别是

　　1）将文件从一个HDFS集群落地到Linux（服务器）上，然后通过scp命令将文件传输到另外一个HDFS集群的某个节点中，然后再从这个节点上传到HDFS中；

　　2）使用distcp命令，直接从一个HDFS集群中传输到另外一个HDFS集群中。

　　这两种方式都能达到一个HDFS集群中的数据转移到另外一个HDFS集群中的目的，但是显而易见的，前者显得极为繁琐，相比之下，后者只需要一条指令就可以将大量数据进行转移。

　　2. distcp指令

　　1）distcp简介

　　　　Java API等多种接口对HDFS访问模型都集中于单线程的存取，如果要对一个文件集进行操作，就需要编写一个程序来执行并行操作。

　　　　HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。

　　　　distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上，那么可以使用HDFS模式，如：

　　　　　　hadoop distcp hdfs://NameNode01/old hdfs://NEWNameNode01/new

　　　　这条命令会将第一个集群中的/old文件夹以及文件夹下的文件复制到第二个集群中的/new目录下，即在第二个集群中会以/new/old的目录结构出现。

　　　　如果/new目录不存在，则系统会新建一个。也可以指定多个数据源，并且所有的内容都会被复制到目标路径。

　　　　需要注意的是，源路径必须是绝对路径，如：

　　　　　　hdfs://NameNode1/old

　　　　默认情况下，虽然distcp会跳过在目标路径上已经存在的文件，但是通过-overwirte选项可以选择对这些文件进行覆盖重写，也可以使用，-update选项仅对更新过的文件进行重写。

　　　　distcp操作有很多选项可以设置，比如忽略失败、限制文件或者复制的数据量等。直接输入指令或者不附加选项则可以查看此操作的使用说明，即：distcp。

　　2）distcp原理概述

　　　　具体实现时，distcp操作会被解析为一个MapReduce操作来执行，当没有Reducer操作时，复制操作被作为Map操作并行地在集群节点中运行。

　　　　因此，每个文件都可被当做一个Map操作来执行复制操作。而distcp会通过执行多个文件聚集捆绑操作，尽可能地保证每个Map操作执行相同数量的数据。

　　　　那么，执行distcp时，Map操作如何确定呢?由于系统需要保证每个Map操作执行的数据量是合理的，来最大化地减少Map执行的开销，而按规定，每个Map最少要执行256MB的数据量(除非复制的全部数据量小于256MB)。

　　　　比如要复制1GB的数据，那么系统就会分配4个Map任务，当数据量非常大时，就需要限制执行的Map任务数，以限制网络带宽和集群的使用率。默认情况下，每个集群的一个节点最多执行20个Map任务。

　　　　比如，要复制1000GB数据到100节点的集群中，那么系统就会分配2000个Map任务(每个节点20个)，也就是说，每个节点会平均复制512MB。

　　　　还可以通过调整distcp的-m参数来减少Map任务量，比如-m 1000就意味着分配1000个Maps,每个节点分配1GB数据量。

　　　　如果尝试使用distcp进行HDFS集群间的复制，使用HDFS模式之后，HDFS运行在不同的Hadoop版本之上，复制将会因为RPC系统的不匹配而失败。

　　　　为了纠正这个错误，可以使用基干HTTP的HFTP进行访问。因为任务要在目标集群中执行，所以HDFS的RPC版本需要匹配，在HFTF模式下运行的代码如下:

　　　　　　hadoop distcp hftp://NameNode01:50070/old hdfs://NEWNameNode01/new

　　　　一个文件的复制

　　　　　　hadoop distcp hftp://192.168.2.50:50070/user/log.txt hdfs://192.168.XX.XX/tmp

　　　　需要注意的是，要定义访问源的URI中NameNode的网络接口，这个接口会通过dfs.http.address的属性值设定，默认值为50070.

　　　　distcp即dist分布式，cp复制。用于在集群内部及集群之间复制数据，即分布式复制。

　　　　例子：

　　　　使用distcp.bytes.per.map控制map数量，mapreduce.job.queuename指定队列，mapreduce.job.name指定job名称
　　　　　　hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Dmapreduce.job.queuename=hive -Dmapreduce.job.name=cpdata

　　　　　　　　　　　　　　　　hdfs://cloudcluster/apps/hive/warehouse/db/data hdfs://192.168.XX.XX:8020/user/hive/warehouse/db/data

　　3）Map数目
　　　　distcp会尝试着均分需要拷贝的内容，这样每个map拷贝差不多相等大小的内容。但因为文件是最小的拷贝粒度，所以配置增加同时拷贝（如map）的数目不一定会增加实际同时拷贝的数目以及总吞吐量。
　　　　如果没使用-m选项，distcp会尝试在调度工作时指定map的数目为 min (total_bytes / bytes.per.map, 20 num_task_trackers)，其中bytes.per.map默认是256MB。
　　　　建议对于长时间运行或定期运行的作业，根据源和目标集群大小、拷贝数量大小以及带宽调整map的数目。

　　　　　　hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Ddfs.client.socket-timeout=240000000 -Dipc.client.connect.timeout=40000000 -i -update

　　　　　　　　　　　　　　　　 hdfs://master1:8020/foo/a hdfs://master1:8020/foo/b hdfs://master2:8020/bar/foo

　　4）不同HDFS版本间的拷贝
　　　　对于不同Hadoop版本间的拷贝，用户应该使用HftpFileSystem。这是一个只读文件系统，所以distcp必须运行在目标端集群上（更确切的说是在能够写入目标集群的TaskTracker上）。

　　　　源的格式是 hftp://<dfs.http.address>/<path> （默认情况dfs.http.address是 <namenode>:50070）。

3. distcp指令练习

　前几篇文档中所使用的文件夹 /user/test 中包含了数个数据表的数据，在这里就使用这个文件夹进行练习。

　　1）在测试集群中新建一个 /user/testFolder文件夹，接下来我们就将文件传输到这个文件夹中；

　　　　　　[root@BD07 ~] hadoop fs -mkdir /user/testFolder

　　2）到练习集群中传输文件到测试集群中：

　　　　　　[root@DataCenter2 Test] hadoop distcp /user/test hdfs://10.128.XX.XXX/user/testFolder

　　3）传输完成后，到测试集群中查看 /user/testFolder文件夹，发现其中多出了一个test文件夹，查看其中的数据，发现正是练习集群中的数据：

　　　　　　[root@BD07 ~] hadoop fs -ls /user/test/test
　　　　　　-rw-r--r-- 3 root mapred 1392 2019-03-15 16:51 /user/test/test/_metadata
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/data
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/test01
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/test02
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/test03
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/test04
　　　　　　drwxr-xr-x - root mapred 0 2019-03-15 16:51 /user/test/test/test05