Mapr使用数据(二)——来自apache的数据拷贝

有三种方法可以基于Hadoop分布式文件系统(HDFS)从Apache Hadoop集群中的数据复制到一个MAPR集群:

  • 如果HDFS集群使用相同版本的RPC协议的那MAPR用途(目前版本4)中,使用DistCp使用通常情况下,如下所述。
  • 如果您要复制非常少量数据,使用HFTP
  • 如果HDFS集群和MAPR集群不使用RPC协议,或同一版本,如果由于某些其他原因上面的步骤不起作用,你可以从HDFS集群的数据。

下面的部分描述了每种方法。

从HDFS中的数据复制到使用MAPR DistCp使用

要执行此操作时,您需要提供以下信息:

  • <NameNode> -在HDFS集群中的NameNode的IP地址或主机名
  • <NameNode端口> -端口用于连接到NameNode会在HDFS集群
  • <HDFS path> -路径,从中你打算将数据复制HDFS的目录
  • <MapR-FS path> -中您打算复制HDFS数据的MAPR集群的路径
  • <FILE> -在HDFS路径的文件

请执行下列步骤:

  1. 从MAPR集群中的节点,尝试Hadoop的FS-LS,以确定是否MAPR群集可以与HDFS集群成功通信:
    hadoop的FS-LS <NameNode IP>:<NameNode端口>/的<path>
    例如,使用用于访问HDFS的NameNode的默认端口:
    hadoop的FS-LS HDFS :/ / NN1:8020/user/sara
  2. 如果hadoop的FS-LS命令成功,尝试的hadoop fs的猫,以确定MAPR集群能否从HDFS集群上的指定路径读取文件内容:
    hadoop的FS-猫<NameNode IP>:<NameNode端口>/ <HDFS path> / <FILE>
  3. 如果您能够与HDFS集群通信和读取文件内容,使用DistCp使用从HDFS集群中的数据复制到MAPR集群:
    Hadoop的HDFS DistCp使用:/ / <NameNode>:<NameNode端口>/ <HDFS path> maprfs :/ / <MapR-FS path>
    例如,使用用于访问HDFS的NameNode的默认端口:
    Hadoop的HDFS DistCp使用:/ / NN1:8020/user/sara maprfs :/ / /用户/萨拉
    请注意,在“三重斜线maprfs :/ / / ... ' 是不是印刷错误。
从HDFS中的数据复制使用HFTP到MAPR

要执行此操作时,您需要提供以下信息:

  • <NameNode> -在HDFS集群中的NameNode的IP地址或主机名
  • <NameNode HTTP端口> -关于在HDFS集群的NameNode的HTTP端口
  • <HDFS path> -路径,从中你打算将数据复制HDFS的目录
  • <MapR-FS path> -中您打算复制HDFS数据的MAPR集群的路径

执行目标群集上运行以下命令,使用DistCp使用过HFTP复制文件:

Hadoop的DistCp使用ħ ftp:// <NameNode IP>:<NameNode HTTP端口>/ <HDFS path> maprfs :/ / <MapR-FS path>

例如,使用默认的HTTP端口上的NameNode的:

Hadoop的DistCp使用ħ ftp://nn2:50070/user/lohit maprfs :/ / /用户/嘉黎

请注意,在“三重斜线maprfs :/ / / ... ' 是不是印刷错误。

从一个HDFS集群推送数据

执行从MAPR客户端或节点(有或者任何一台电脑以下步骤MAPR核MAPR客户端安装)。有关设置一个MAPR客户端的详细信息,请参阅设置客户

要执行此操作时,您需要提供以下信息:

  • <input path> - HDFS的路径源数据
  • <output path> -的MAPR-FS路径到目标目录
  • <MapR CLDB IP> -在MAPR群集上的主CLDB节点的IP地址
  1. 登录为用户(或使用sudo的以下命令)。
  2. 创建目录的/ tmp / maprfs客户端/ Apache的Hadoop的JobClient节点上。
  3. 从MAPR客户端或任何MAPR节点将以下文件复制到/ tmp目录/ maprfs客户端/目录:
    • / opt/mapr/hadoop/hadoop-0.20.2/lib/maprfs-0.1.jar,
    • / opt/mapr/hadoop/hadoop-0.20.2/lib/zookeeper-3.3.2.jar
    • / opt/mapr/hadoop/hadoop-0.20.2/lib/native/Linux-amd64-64/libMapRClient.so
  4. 在Apache Hadoop的JobClient节点上正确地安装文件:
    CP / tmp/maprfs-client/maprfs-0.1.jar $ HADOOP_HOME / lib中/。
    CP / tmp/maprfs-client/zookeeper-3.3.2.jar $ HADOOP_HOME / lib中/。
    CP的/ tmp / maprfs客户端/ libMapRClient.so $ HADOOP_HOME/lib/native/Linux-amd64-64/libMapRClient.so 
    • 如果你是一个32位的客户端上,使用的Linux-I386-32代替Linux的AMD64-64以上。
  5. 如果JobTracker的是从JobClient节点不同的节点,复制和安装文件给JobTracker节点以及使用上述步骤。
  6. 在JobTracker的节点,设置fs.maprfs.impl = com.mapr.fs.MapRFileSystem$ HADOOP_HOME / conf /中核心的site.xml
  7. 重新启动JobTracker的。
  8. 你可以将数据通过运行现在复制到MAPR集群DistCp使用 Apache的Hadoop集群的JobClient节点上。例如:
    。/ bin中/ hadoop的DistCp使用-Dfs.maprfs.impl = com.mapr.fs.MapRFileSystem-libjars / tmp/maprfs-client/maprfs-0.1.jar,/ tmp/maprfs-client/zookeeper-3.3.2.jar - 文件中的/ tmp / maprfs客户端/ libMapRClient.so <input path> maprfs :/ / <MapR CLDB IP>:7222 / <output path>
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值