Spark分区表插入数据清空分区数据问题的解决办法

文章讲述了作者在使用Spark2.3时遇到的问题,即DataFrame的saveAsTable和insertInto方法在插入分区时会自动清空数据。作者提到这可能是Spark的一个已知bug,涉及到Parquet格式和HDFS存储。解决方案包括手动创建表、使用CREATETABLE命令和创建外部表挂载数据。
摘要由CSDN通过智能技术生成

原本希望通过Spark的DataFrame的saveAsTable自动创建
然后再通过insertInto或者别的方式插入分区,结果发现这些方法都不可行,每一次运行会自动truncate清空原来的数据。哪怕是加了条件判断,通过createOrReplaceGlobalTempView的方式去执行Spark SQL的插入仍然是一样的效果。
如下面所示:

val appViewName = s"${appTableName}_tmp_$partitionKey"
  if (!spark.catalog.tableExists(dbName, appTableName)) {
    SDLogger.info("APP一级分类表不存在,用saveAsTable方式自动创建")
    pivoted_app
      .write
      .mode("overwrite")
      .partitionBy("dataspan")
      .saveAsTable(appTableName)
  } else {
    pivoted_app.createOrReplaceGlobalTempView(appViewName)
    spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
    spark.catalog.dropGlobalTempView(appViewName)
  }

这个看来是Spark的一个bug,不过我用的Spark2.3,后续的版本是否修复这个问题就不得而知了,通过日志大致能看出在插入数据的时候,使用的parquet格式,首先将数据存储到hdfs的临时目录下,这个过程中应该是产生了bug,将数据清空了,导致每一次运行都只能得到新的表。

只能是提前创建好表

 CREATE TABLE test
 (
   id bigint,
   feature float
  )
PARTITIONED BY 
(
dataspan STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
LINES TERMINATED BY '\n'
NULL DEFINED AS ''
STORED AS TEXTFILE;

我原本想着懒得去创建了,想自动创建一个,结果还是不行。由于这个分区的列非常多,手动创建其实也是很麻烦的,我先跑了一个测试数据,照着日志打印出来的Schema创建即可。类似于如下:

optional fixed_len_byte_array(16) app_11uyp (DECIMAL(38,6));
optional fixed_len_byte_array(16) app_x72t7 (DECIMAL(38,6));

然后再去插入

pivoted_app.createOrReplaceGlobalTempView(appViewName)
spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
spark.catalog.dropGlobalTempView(appViewName)

还有一种方法是提前创建外部表,把数据存储到hdfs目录下,然后去挂载数据,但是这个方法略微繁琐,不如直接插入分区方便一些。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值