hadoop集群之间的文件拷贝——distcp

最新推荐文章于 2023-08-16 09:34:11 发布

Lenskit

最新推荐文章于 2023-08-16 09:34:11 发布

阅读量5.3k

点赞数

分类专栏：看完这个你就会hadoop了文章标签： hadoop hadoop集群 distcp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenkfkevin/article/details/73571754

版权

看完这个你就会hadoop了专栏收录该内容

14 篇文章 2 订阅

订阅专栏

之前部门迁移hadoop，涉及到hive表的重建，以及hdfs上文件的迁移，还有oozie任务的修改。

hive重建表比较简单，首先show create table tablename;然后把建表语句拷贝下来即可，这里要注意的是，最好把stored as XXX语句也加上。一开始我没加，还出了错，因为两个hadoop集群的hive建表时的默认的存储格式不一致。

hdfs的数据迁移，有几种方式可以选择：

1、如果数据在关系型数据库中也存在一份，可以直接使用sqoop命令导入新集群。

2、如果表不是很多，可以先从hdfs上把数据get到本地，随后再load到新集群的hive表中，或直接put进相应的hdfs路径。

3、使用hadoop distcp命令，这个命令是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文

件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部

分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。

下面是一个使用的例子：

hadoop distcp -Dmapred.job.queue.name=xxx -m 90 -update -skipcrccheck hftp://XXXX:50070/user/hive/warehouse/xxx.db/xxx/ user/hive/warehouse/xxx.db/xxx

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。