Sparksql中插入数据时,如果记.录不存在则insert,如果存在则update

最近在写项目的时候,碰到了需要通过Sparksql对数据库数据根据主键进行存在即覆盖,不存在则追加的操作,记得在以前的使用2.1.0版本的spark的时候,我是使用了replace into完成了这种操作,但现在公司项目是2.3.1版本,replace into不被支持了,很郁闷,在网上找了很多相关操作的博客,都没有我想要的结果,最后干脆用代码解决问题!
先上代码:

Dataset<Row> join = operate.join(dataset4, operate.col("JBXXZJ").equalTo(dataset4.col("JBXXZJ")), "outer");
            //目标表,源表的主键JBXXZJ不为null
            Dataset<Row> filter1 = join.filter(dataset4.col("JBXXZJ").isNotNull().and(operate.col("JBXXZJ").isNotNull()))
                    .select(operate.col("JBXXZJ"),operate.col("NF"),operate.col("ZZC"),operate.col("JZC")
                            ,operate.col("ZCFZL"),operate.col("YYSRZE"),operate.col("LRZE"),operate.col("NSZE")
                            ,operate.col("XSZE"),operate.col("SYZQY"),operate.col("CJSJ"),operate.col("CJRY")
                            ,operate.col("CJBM"),operate.col("GXSJ"),operate.col("GXRY"),operate.col("GXBM"));
            //目标表为null,源表不为null
            Dataset<Row> filter2 = join.filter(dataset4.col("JBXXZJ").isNull().and(operate.col("JBXXZJ").isNotNull()))
                    .select(operate.col("JBXXZJ"),operate.col("NF"),operate.col("ZZC"),operate.col("JZC")
                            ,operate.col("ZCFZL"),operate.col("YYSRZE"),operate.col("LRZE"),operate.col("NSZE")
                            ,operate.col("XSZE"),operate.col("SYZQY"),operate.col("CJSJ"),operate.col("CJRY")
                            ,operate.col("CJBM"),operate.col("GXSJ"),operate.col("GXRY"),operate.col("GXBM"));
                            //目标表不为null,源表为null
            Dataset<Row> filter3 = join.filter(dataset4.col("JBXXZJ").isNotNull().and(operate.col("JBXXZJ").isNull()))
                    .select(dataset4.col("JBXXZJ"),dataset4.col("NF"),dataset4.col("ZZC"),dataset4.col("JZC")
                            ,dataset4.col("ZCFZL"),dataset4.col("YYSRZE"),dataset4.col("LRZE"),dataset4.col("NSZE")
                            ,dataset4.col("XSZE"),dataset4.col("SYZQY"),dataset4.col("CJSJ"),dataset4.col("CJRY")
                            ,dataset4.col("CJBM"),dataset4.col("GXSJ"),dataset4.col("GXRY"),dataset4.col("GXBM"));
            //将三种情况的dataset聚合
            Dataset<Row> filter_union = filter1.union(filter2).union(filter3);
 
            //创建临时表
            result.createOrReplaceTempView("result");

            //将最终结果覆盖到目标表中
            result.sqlContext().sql("insert overwrite table QY_QYJYQK_TEMP select * from result");

该代码中operate是源表的dataset,dataset4是目标表的dataset,先把两张表进行聚合
第一种情况:当源表主键不为空,目标表主键不为空的情况下,通过select函数取出源表的该主键对应的数据,生成一个新的dataset
第二种情况:当源表主键不为空,目标表主键为空的情况下,通过select函数取出源表的该主键对应的数据,生成一个新的dataset
第三种情况:当源表主键为空,目标表主键不为空的情况下(这种情况比较少),通过select函数取出目标表的该主键对应的数据,生成一个新的dataset
最后将三种情况的dataset通过union函数进行聚合,将最新的dataset通过insert overwrite覆盖到目标表
提示:一定要对源表和目标表的dataset进行持久化,不然会丢失数据,就酱了
写的比较粗糙,各位有什么更好的方法,希望告诉我一下哈

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值