hive小文件解决

一 产生原因

1.1 数据增量多批次插入,每批次会产生 partitions*reducetasks 个小文件

1.2 hive或spark 数据分析 reduce task个数过多。

二 解决方法

2.1 hadoop archive 

hive> set hive.archive.enabled=true;
hive> set hive.archive.har.parentdir.settable=true;
hive> set har.partfile.size=1099511627776;
alter table table_name archive PARTITION(dt='${DT}');
但是因为从HAR读数据需要额外的开销,因此查询归档下的数据可能会变慢。
且归档的分区不能够INSERT OVERWRITE,必须先unarchive.

2.2 spark coalse()

  //1.1将该分区数据抽入临时表
    DF.filter(dt)
      .coalesce(1)
      .write
      .mode(SaveMode.Append)
      .format("parquet")
      .partitionBy("dt")
 
      /**
       * 该api不需事先创建表,但是overwrite分区会导致全表被覆盖
       */
      .saveAsTable("ykchr.t1");
  // 1.2 删除原分区的数据
  spark.sql(s"ALTER TABLE t  DROP IF EXISTS PARTITION (dt='$dt')");
  // 1.3 重新写入分区
  DF.write.insertInto("t");

三 最佳实践

一般采用Hadoop Archive将部分历史数据进行归档,需要访问的时候再恢复,将经常用到的或者刚进入的数据通过spark DF.filter(dt).coalse()定时任务合并小文件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值