适用场景
A将数据写入某一目录下,B将数据同步到另外一个数仓并建立hive表映射
借用distcp分布式驱动拷贝方法来快速完成数据的复制
#!/bin/bash
set -e
day=`date -d "$DATE -1 hour" +"%Y-%m-%d"`
ht=`date -d " -1 hour" +"%H"`
# echo $day
hadoop distcp -skipcrccheck -update -m 20 hdfs://db1.db/mytable1/dt=$day/ht=$ht hdfs://db1.db/mytable2/dt=$day/ht=$ht
hive -e "ALTER TABLE db1.mytable2 ADD IF NOT EXISTS PARTITION(dt='$day', ht='$ht');"
这里采用hadoop distcp -skipcrccheck 命令对数据进行拷贝
并采用“hive -e ”来动态增加分区