【Hadoop】使用Hadoop Shell 命令导数据

cbigchaos

已于 2022-08-04 09:41:37 修改

阅读量610

点赞数

分类专栏： # Hadoop 文章标签： hadoop

于 2021-02-09 14:21:08 首次发布

本文链接：https://blog.csdn.net/weixin_42804692/article/details/110968554

版权

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

场景：两个大数据集群，需要从生产上面拉一批原始的数据放到测试集群进行分析，两个环境的表结构相同，都是内部表

1、使用hadoop 的rm 命令清空表的原来的少量数据

# 删除数据
hdfs dfs -rm -f -r -skipTrash  hdfs://node1/apps/hive/warehosue/ods.db/table_name/

PS:如果不加-skipTrash，删除的目录会放入/user/hdfs/.Trash中。有专门的配置项来指定什么时候清空回收站
2、用distcp 命令把生产的数据拷贝过来

#用于集群内部或者集群之间拷贝数据的常用命令
hadoop distcp -pb -m 10 hdfs://cluster/apps/hive/warehosue/ods.db/table_name hdfs:node_cluster/apps/hive/warehouse/ods.db/table_name

3、处理一下目标表

hive -e "analyze table table_name compute statistics;"

如果是分区表

hive -e "msck repair table table_name;"

二、get、load

1、获取表数据
数据会从hdfs 到本地

hdfs dfs -get /apps/hive/warehouse/ods.db/table_name/*  /data_swap/

把数据放入到另一个集群的机器
2、Hive的load命令导入到表中

hive -e "load data local inpath /data_swap/* into table ods.table_name;"

load 的时候注意一下文件的格式

cbigchaos

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Hadoop】使用Hadoop Shell 命令导数据

hadoopshell
复制链接

扫一扫

专栏目录

【Hadoop】使用Hadoop Shell 命令导数据

二、get、load

“相关推荐”对你有帮助么？