原本希望通过Spark的DataFrame的saveAsTable自动创建
然后再通过insertInto或者别的方式插入分区,结果发现这些方法都不可行,每一次运行会自动truncate清空原来的数据。哪怕是加了条件判断,通过createOrReplaceGlobalTempView的方式去执行Spark SQL的插入仍然是一样的效果。
如下面所示:
val appViewName = s"${appTableName}_tmp_$partitionKey"
if (!spark.catalog.tableExists(dbName, appTableName)) {
SDLogger.info("APP一级分类表不存在,用saveAsTable方式自动创建")
pivoted_app
.write
.mode("overwrite")
.partitionBy("dataspan")
.saveAsTable(appTableName)
} else {
pivoted_app.createOrReplaceGlobalTempView(appViewName)
spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
spark.catalog.dropGlobalTempView(appViewName)
}
这个看来是Spark的一个bug,不过我用的Spark2.3,后续的版本是否修复这个问题就不得而知了,通过日志大致能看出在插入数据的时候,使用的parquet格式,首先将数据存储到hdfs的临时目录下,这个过程中应该是产生了bug,将数据清空了,导致每一次运行都只能得到新的表。
只能是提前创建好表
CREATE TABLE test
(
id bigint,
feature float
)
PARTITIONED BY
(
dataspan STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
LINES TERMINATED BY '\n'
NULL DEFINED AS ''
STORED AS TEXTFILE;
我原本想着懒得去创建了,想自动创建一个,结果还是不行。由于这个分区的列非常多,手动创建其实也是很麻烦的,我先跑了一个测试数据,照着日志打印出来的Schema创建即可。类似于如下:
optional fixed_len_byte_array(16) app_11uyp (DECIMAL(38,6));
optional fixed_len_byte_array(16) app_x72t7 (DECIMAL(38,6));
然后再去插入
pivoted_app.createOrReplaceGlobalTempView(appViewName)
spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
spark.catalog.dropGlobalTempView(appViewName)
还有一种方法是提前创建外部表,把数据存储到hdfs目录下,然后去挂载数据,但是这个方法略微繁琐,不如直接插入分区方便一些。