由于要处理大批量数据,涉及到线上交互,比较看重时效,所以这几个月来一直用pyspark跑模型,遇到很多问题,比如说回写预测结果到hive分区表。
下面是第一种尝试,但奇怪地是,分区没有生效,回写的时候会将存量数据全删掉,再插入。
# 以dt为分区回写
df.write.mode("overwrite").format("orc").partitionBy("dt").saveAsTable(
由于要处理大批量数据,涉及到线上交互,比较看重时效,所以这几个月来一直用pyspark跑模型,遇到很多问题,比如说回写预测结果到hive分区表。
下面是第一种尝试,但奇怪地是,分区没有生效,回写的时候会将存量数据全删掉,再插入。
# 以dt为分区回写
df.write.mode("overwrite").format("orc").partitionBy("dt").saveAsTable(