场景:两个大数据集群,需要从生产上面拉一批原始的数据放到测试集群进行分析,两个环境的表结构相同,都是内部表
1、使用hadoop 的rm 命令清空表的原来的少量数据
# 删除数据
hdfs dfs -rm -f -r -skipTrash hdfs://node1/apps/hive/warehosue/ods.db/table_name/
PS:如果不加-skipTrash,删除的目录会放入/user/hdfs/.Trash中。有专门的配置项来指定什么时候清空回收站
2、用distcp 命令把生产的数据拷贝过来
#用于集群内部或者集群之间拷贝数据的常用命令
hadoop distcp -pb -m 10 hdfs://cluster/apps/hive/warehosue/ods.db/table_name hdfs:node_cluster/apps/hive/warehouse/ods.db/table_name
3、处理一下目标表
hive -e "analyze table table_name compute statistics;"
如果是分区表
hive -e "msck repair table table_name;"
二、get、load
1、获取表数据
数据会从hdfs 到 本地
hdfs dfs -get /apps/hive/warehouse/ods.db/table_name/* /data_swap/
把数据放入到另一个 集群的机器
2、Hive的load命令导入到表中
hive -e "load data local inpath /data_swap/* into table ods.table_name;"
load 的时候注意一下文件的格式