hive小文件解决

yostkevin

已于 2024-05-11 15:18:01 修改

阅读量287

点赞数

分类专栏：大数据 sql 文章标签： hive hadoop 数据仓库

于 2021-07-08 17:08:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014384314/article/details/118577770

版权

大数据同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

一产生原因

1.1 数据增量多批次插入，每批次会产生 partitions*reducetasks 个小文件

1.2 hive或spark 数据分析 reduce task个数过多。

二解决方法

2.1 hadoop archive

hive> set hive.archive.enabled=true;
hive> set hive.archive.har.parentdir.settable=true;
hive> set har.partfile.size=1099511627776;
alter table table_name archive PARTITION(dt='${DT}');
但是因为从HAR读数据需要额外的开销，因此查询归档下的数据可能会变慢。
且归档的分区不能够INSERT OVERWRITE，必须先unarchive.

2.2 spark coalse()

  //1.1将该分区数据抽入临时表
    DF.filter(dt)
      .coalesce(1)
      .write
      .mode(SaveMode.Append)
      .format("parquet")
      .partitionBy("dt")
 
      /**
       * 该api不需事先创建表，但是overwrite分区会导致全表被覆盖
       */
      .saveAsTable("ykchr.t1");
  // 1.2 删除原分区的数据
  spark.sql(s"ALTER TABLE t  DROP IF EXISTS PARTITION (dt='$dt')");
  // 1.3 重新写入分区
  DF.write.insertInto("t");

三最佳实践

一般采用Hadoop Archive将部分历史数据进行归档，需要访问的时候再恢复，将经常用到的或者刚进入的数据通过spark DF.filter(dt).coalse()定时任务合并小文件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive小文件解决

一产生原因1.1 数据增量多批次插入，每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.
复制链接

扫一扫

专栏目录

yostkevin CSDN认证博客专家 CSDN认证企业博客

码龄10年

103: 原创

5万+: 周排名

2万+: 总排名

19万+: 访问

: 等级

2396: 积分

56: 粉丝

87: 获赞

22: 评论

280: 收藏

私信

关注

热门文章

分类专栏

vertica 6篇
ftp 1篇
任务调度 1篇
数据治理 1篇
kafka
面试项目
druid 1篇
部署 1篇
docker
大数据 33篇
shell 6篇
springboot 1篇
python 2篇
Hase 1篇
cdh
centos7.2安装 1篇
git安装与使用
linux 4篇
SPARK 10篇
flink 4篇
idea 2篇
sql 14篇
java 8篇
sparksql 4篇
mysql 1篇
datax 3篇
phoenix
time tool
pgsql 4篇
hbase

最新评论

vertica-java-自定义函数类(UDX)的部署
紫小筱: 非常好的教程，谢谢。我在文章里的连接找到了传固定个数的参数的代码： public class Add2intsInfo extends ScalarFunctionFactory { @Override public void getPrototype(ServerInterface srvInterface, ColumnTypes argTypes, ColumnTypes returnType) { argTypes.addInt(); argTypes.addInt(); returnType.addInt(); } public class Add2ints extends ScalarFunction { @Override public void processBlock(ServerInterface srvInterface, BlockReader arg_reader, BlockWriter res_writer) throws UdfException, DestroyInvocation { do { long a = arg_reader.getLong(0); long b = arg_reader.getLong(1); res_writer.setLong(a+b); res_writer.next(); } while (arg_reader.next()); } } 我要的是字符串，所以用的方法是 addVarchar，不是addInt
idea 连接github
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
数据结构-双向链表、栈、队列、优先队列与堆
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
vertica 实时消费kafka 例子
CSDN-Ada助手: SpringBoot项目里，如何做异步计算，异步计算超时和异常处理你会怎么做呢？
geomesa hbase demo
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。