hive数据导入

快速导入hive数据的方法

需求:将生产上的某个hive库中的数据导入测试环境中。

思路:因为hive中的数据也是存在于linux服务器的磁盘中,只需要将相应的hive库中的数据文件传到测试环境相应的hive库中即可。

拓展:hive的数据是存放在hdfs上的,eg:mydb库中test表是以stat_dt作为分区字段的,则stat_dt=‘2019-06-21’中的数据文件在hdfs的存储格式为:

在这里插入图片描述

步骤:

  1. 将生产上含有敏感数据的表的字段进行脱敏处理,不含有敏感字段的表直接拉取到新的db中。
  2. 将新的db中的整体目录传输到测试环境中。
  3. 使用命令hdfs dfs -put xxxx ~/xxdb/xxxx/ (xxxx:表目录,~:hive的家目录,xxdb:表对应的db路径)eg:将mydb库中的test表存入hive库中,我的hive家目录为:/usr4/hive/warehouse/ 则使用命令:hdfs dfs -put test /usr4/hive/warehouse/mydb/test/
  4. 存到hdfs中的hive库中后,在hive中执行命令:msck repair table mydb.test进行数据库表的修复。
  5. 查询该表,验证结果。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值