CDH 之 hive 数据迁移

啊这

已于 2023-07-03 11:30:40 修改

阅读量1k

点赞数

分类专栏： CDH 文章标签： hive hadoop 大数据迁移学习

于 2023-05-30 10:29:24 首次发布

本文链接：https://blog.csdn.net/qq_25868251/article/details/130866910

版权

CDH 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下

1.导出元数据信息

# database 即是数据库名称
hive -e "use <database>; show tables;" | xargs -I '{}' sh -c 'hive -e "use <database>; show create table '{}';"' > tables.sql

2.将原服务器中 hive 库文件复制到本地（将 test 这个数据库文件复制到本地 /path/to/destination 目录下，这个会消耗比较长的时间）

hadoop fs -get /user/hive/warehouse/test.db/ /path/to/destination/

将导下来的 tables.sql 和 test.db 库文件上传至目标服务器，导入 sql 文件（前提是源服务器和目的服务器的hive版本要一致，否则需要做相关转换）

3.查看 hive 版本并导入 tables.sql

先创建数据库
hive> show databases;
OK
default
Time taken: 1.399 seconds, Fetched: 1 row(s)
hive> create database test;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user":hdfs:hadoop:drwxr-xr-x
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:400)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:256)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:194)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1855)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1839)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1798)
        at org.apache.hadoop.hdfs.server.namenode.FSDirMkdirOp.mkdirs(FSDirMkdirOp.java:61)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:3101)
        at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:1123)
        at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:696)
        at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:991)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:869)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:815)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2675)
)

报错的原因是：Hive没有足够的权限来在HDFS上创建数据库目录。默认情况下，Hive使用当前用户的身份来执行操作，因此需要确保当前用户（在这种情况下为“root”）具有在HDFS上创建目录的权限，或者进入 hdfs 用户进行操作

（1）用如下命令创建数据库：

#查看 hive 是否有 /user 目录的权限
[root@hadoop105 hive_db]# hdfs dfs -ls /
drwxr-xr-x   - hdfs hadoop              0 2023-05-26 17:52 /user
#如下操作创建数据库
[root@hadoop105 hive_db]# su - hdfs
Last login: Fri May 26 17:49:25 CST 2023 on pts/1
#进入hive交互命令行执行 create database test; 
[hdfs@hadoop105 ~]$ hive
hive> create database test;
#或者直接用下面命令创建数据库
[hdfs@hadoop105 ~]$ hive -e "create database test;"

（2）导入 tables.sql

# tables.sql 文件删除 LOCATION 到下一条 create 命令直接的内容
LOCATION
  'hdfs://hadoop40/user/hive/warehouse/***/***

#可以用如下正则表达式进行批量删除：(即删除从LOCATION开始到下一个CREATE前的内容，改表达式的最后一个LOCATION需要手动删除)
:g/LOCATION/,/CREATE/-1d

#进行导入：
[root@hadoop105 ~]# su - hdfs
[hdfs@hadoop105 ~]$ hive
hive> use test;
hive> source /path/to/destination/tables.sql

#出现错误：
Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/jars/hive-common-2.1.1-cdh6.3.2.jar!/hive-log4j2.properties Async: false
FAILED: ParseException line 42:0 missing EOF at 'CREATE' near ')'
#语法错误，这是因为导出的sql文件中，create() 和 create() 语句直接结束后没有分号隔开
create(
    ***
    ***
);
create();
create()
#可以使用如下正则表达式进行批量修改：(其中，g/CREATE.*/-1表示从匹配CREATE的行开始，到上一行结束；s/$/;/g表示在行末添加分号，多个 CREATE 情况下，第一个 CREATE 第一行末尾可能出现分号，需要手动删除)
:g/CREATE.*/-1s/$/;/g

（3）元数据导入成功之后，/user/hive/warehouse 下会生成 test.db 目录，下面包含了创建的表信息

#将test.db目录下的文件删除（因为 tables.sql 导入成功后，表的内容是空的，我们要把之前复制的数据库文件拷贝过来替换，所以需要把表文件删除）
[hdfs@hadoop105 ~]$ hdfs dfs -rm -r /user/hive/warehouse/test.db/*

（4）最后进行数据导入，这里也只测试了其中一个表数据

#将整个ods库内容导入到/user/hive/warehouse
[hdfs@hadoop105 ~]$ hdfs dfs -put /var/lib/hadoop-hdfs/test.db/* /user/hive/warehouse/test.db/
[hdfs@hadoop105 ~]$ hdfs dfs -ls /user/hive/warehouse/test.db                                  
Found 49 items
drwxr-xr-x   - hive hadoop          0 2023-06-30 11:05 /user/hive/warehouse/test.db/table01
drwxr-xr-x   - hive hadoop          0 2023-06-30 11:05 /user/hive/warehouse/test.db/table02
drwxr-xr-x   - hive hadoop          0 2023-06-30 11:05 /user/hive/warehouse/test.db/table03
drwxr-xr-x   - hive hadoop          0 2023-06-30 11:05 /user/hive/warehouse/test.db/table04
drwxr-xr-x   - hive hadoop          0 2023-06-30 11:05 /user/hive/warehouse/test.db/table05
......


#单独导出表就具体到表名字
hadoop fs -get /user/hive/warehouse/test.db/table01 /path/to/destination/

#此处只单独测试表 table001 导入（导入一般很快，不会有其他信息输出）
[hdfs@hadoop105 ~]$ hdfs dfs -put /path/to/destination/table01 /user/hive/warehouse/test.db/

（5）重启 hive

啊这

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
CDH 之 hive 数据迁移

当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下。将导下来的 tables.sql 和库文件上传至目标服务器，导入 sql 文件（前提是源服务器和目的服务器的hive版本要一致，否则需要做相关转换）上面的test.sql我只加了一条 create 数据，但是实际导出的sql文件是包含很多条create语句的，执行会出现如下错误。元数据导入成功之后，进行数据导入，这里也只测试了其中一个表数据。
复制链接

扫一扫