博主在这段时间一直负责公司大数据平台迁移工作,目前项目已接近尾声。前段时间给大家分享了《数仓迁移(一):Distcp命令,分区修复》,今天再继续分享大表的迁移方案。
一、项目背景:
1.数仓迁移过程中,需要将老平台(CDH)数据迁移到新平台(HDP),小表,中表可以直接通过Distcp命令同步。
2.老集群数仓DW层中存在几张上亿条数据(文件100G以上)的大表,直接采用Distcp命令同步耗时耗资源
二、思路:
通过中间表,将源表PARQUET格式压缩为ORC格式,进行数据迁移同步。
三、迁移步骤
1.查看源表数据量
hdfs dfs -du -