spark写hive按照partition overwrite

最新推荐文章于 2023-12-06 18:18:11 发布

库伯

最新推荐文章于 2023-12-06 18:18:11 发布

阅读量2.2k

点赞数

分类专栏：大数据文章标签： spark partition overwrite 覆盖分区覆盖

本文链接：https://blog.csdn.net/iKuboo/article/details/102974751

版权

刚发现spark写hive的是用overwrite后会把整个表删了，在执行插入，导致所有的partition都被删除了。期望是能按照partition去覆盖，而不是全表覆盖。研究了一下，以下方法亲测可行：

建表语句：

CREATE TABLE `student_table`( 
  `id` string,    
  `name` string
) 
PARTITIONED BY (  
  `dt` string
) 
ROW FORMAT SERDE  
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'   
STORED AS INPUTFORMAT  
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'  
OUTPUTFORMAT  
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

spark代码：


import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class ClearData {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("test")
                .co

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

库伯

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark写hive按照partition overwrite

刚发现spark写hive的是用overwrite后会把整个表删了，在执行插入，导致所有的partition都被删除了。期望是能按照partition去覆盖，而不是全表覆盖。研究了一下，以下方法亲测可行：建表语句：CREATE TABLE `student_table`( `id` string, `name` string) PARTITIONED BY ( ...
复制链接

扫一扫