hive小文件合并机制_Hive小文件合并迁移

最新推荐文章于 2022-04-22 11:31:23 发布

辰予

最新推荐文章于 2022-04-22 11:31:23 发布

阅读量857

点赞数

文章标签： hive小文件合并机制

本文链接：https://blog.csdn.net/weixin_32730471/article/details/113567744

版权

本文介绍了如何在Hive中合并大量小文件，使用SparkSQL进行重组，并通过跨集群数据迁移的方法，详细阐述了从开启SparkShell、合并分区、下载上传到添加Hive元数据的全过程，以解决在开启kerberos的集群间迁移含小文件的Hive数据的效率问题。

摘要由CSDN通过智能技术生成

1 需求

Hive数据库内有4张表，每张表有1TB左右数据，按天分区，需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了kerberos身份认证，直接进行数据迁移不太好实现，所以需要先将A集群的数据下载到本地，再迁移到B集群本地，最后从B本地上传到B集群的Hive库里。不过有一个问题，因为Hive库表中有大量的小文件，若直接下载上传这些小文件，速度特别的慢，所以得先进行一步小文件合并工作。需求和方案明确后进行具体操作。

2 小文件合并

我们通过SparkSQL进行小文件合并，首先开启spark-shell申请足够多的资源：

spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-cores 6 --num-executors 18 -- executor-memory 18g

依次合并Hive表各分区的小文件,将几十万个小文件合并为50个大文件：

sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-20/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-20/”);

sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-21/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-21/”);

……

3 下载上传文件

在A集群下载合并后的Hive表文件到本地目录,为提高下载效率可以开多个终端，每个终端下载不同分区数据到不同磁盘目录中。

hdfs dfs –get /apps/hive/fms/t_flowdata/ /data/data1/

A集群数据下载完成后需要传到B集群本地目录，然后通过HDFS命令上传到B集群的Hive库中：

scp –r /data/data1/t_flowdata B:/data/data1/

hdfs dfs –put /data/data1/ /wa/hive/fms/t_flowdata/

我们将A集群Hive库里的表文件导入了B集群的Hive库。最后需要连接B集群Hive库，添加导入的表分区元数据给对应表，以使可以通过sql查询到B集群Hive库里的导入分区数据。

beeline –u “jdbc:hive2://node10:10000/;principal=hive/node10@HADOOP.COM”

use fms;

alter table t_flowdata add partition(time_part=’ 2017-03-20’);

alter table t_flowdata add partition(time_part=’ 2017-03-21’);

至此，跨越两个开启kerberos认证的Hadoop集群，迁移包含大量小文件的Hive库数据的任务完成。

注意：小文件合并步骤必不可少，两个集群间大量小文件的传输性能会异常的低下。而且还会给namenode增加很大的压力。

辰予

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive小文件合并机制_Hive小文件合并迁移

1 需求Hive数据库内有4张表，每张表有1TB左右数据，按天分区，需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了kerberos身份认证，直接进行数据迁移不太好实现，所以需要先将A集群的数据下载到本地，再迁移到B集群本地，最后从B本地上传到B集群的Hive库里。不过有一个问题，因为Hive库表中有大量的小文件，若直接下载上传这些小文件，速度特别的慢，所以得先进行一步小文...
复制链接

扫一扫