hadoop hive集群_Hadoop集群数据搬迁流程--hive篇

最新推荐文章于 2023-05-30 10:29:24 发布

weixin_39820177

最新推荐文章于 2023-05-30 10:29:24 发布

阅读量190

点赞数

喜欢的同学记得点赞关注呀~~

准备工作

在进行集群数据迁移之前，首先梳理出需要迁移的hdfs路径，文件数及文件大小。确保目标集群存储空间及文件数不超限额。

可参考以下信息：

源集群 namenode1:50070

hiveserver1

源集群路径 /data/warehouse/buiness.db

目的集群 namenode2

hiveserver2

目的集群 /data/warehouse/input/

1.全量数据拷贝

通过distcp指令，对跨集群文件传输。

注意，红色字体需要结合自身总带宽修改。

nohup hadoop distcp -Dmapreduce.job.queuename=root.default -Dipc.client.fallback-to-simple-auth-allowed=true -m 30 -bandwidth 25 -p webhdfs://namenode1:50070/data/warehouse/buiness.db hdfs://namenode2:8020/data/warehouse/input>/tmp/distcp_CSDETL_BAK.log 2>&1 &

2.验证文件一致性

通过count文件数量验证迁移数据是否正确，确保迁移过程无数据丢失情况。

源集群：

hdfs hdfs dfs -count /data/warehouse/business.db/

目的集群：

hdfs hdfs dfs -count /data/warehouse/

3.建表

通过连接源集群beeline方式连接到hive；

beeline
！connect jdbc:hive2://hiveserver:10000

查询建表语句

show create table 'table_name';

通过建表语句，查看是否是分区表

登录目标集群beeline连接到hive，使用源表语句建表。（因集群、目录等可能发生改变，需要修改location等信息）

4.创建分区表

以上步骤以及完成了数据拷贝以及新集群中表的创建工作，但是分区表还需要单独创建分区，并指定location

alter table table_name add if not exists partition (`record_date`='20200820') location '/data/warehouse/bussiness.db/table_name/record_date=20200820/';

5.再次进行增量拷贝

6.最后再进行一次数据对比即可

weixin_39820177

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop hive集群_Hadoop集群数据搬迁流程--hive篇

喜欢的同学记得点赞关注呀~~准备工作在进行集群数据迁移之前，首先梳理出需要迁移的hdfs路径，文件数及文件大小。确保目标集群存储空间及文件数不超限额。可参考以下信息：源集群 namenode1:50070hiveserver1源集群路径 /data/warehouse/buiness.db目的集群 namenode2hiveserver2目的集群 /data/warehouse/input/...
复制链接

扫一扫