最近在写项目的时候,碰到了需要通过Sparksql对数据库数据根据主键进行存在即覆盖,不存在则追加的操作,记得在以前的使用2.1.0版本的spark的时候,我是使用了replace into完成了这种操作,但现在公司项目是2.3.1版本,replace into不被支持了,很郁闷,在网上找了很多相关操作的博客,都没有我想要的结果,最后干脆用代码解决问题!
先上代码:
Dataset<Row> join = operate.join(dataset4, operate.col("JBXXZJ").equalTo(dataset4.col("JBXXZJ")), "outer");
//目标表,源表的主键JBXXZJ不为null
Dataset<Row> filter1 = join.filter(dataset4.col("JBXXZJ").isNotNull().and(operate.col("JBXXZJ").isNotNull()))
.select(operate.col("JBXXZJ"),operate.col("NF"),operate.col("ZZC"),operate.col("JZC")
,operate.col("ZCFZL"),operate.col("YYSRZE"),operate.col("LRZE"),operate.col("NSZE")
,operate.col("XSZE"),operate.col("SYZQY"),operate.col("CJSJ"),operate.col("CJRY")
,operate.col("CJBM"),operate.col("GXSJ"),operate.col("GXRY"),operate.col("GXBM"));
//目标表为null,源表不为null
Dataset<Row> filter2 = join.filter(dataset4.col("JBXXZJ").isNull().and(operate.col("JBXXZJ").isNotNull()))
.select(operate.col("JBXXZJ"),operate.col("NF"),operate.col("ZZC"),operate.col("JZC")
,operate.col("ZCFZL"),operate.col("YYSRZE"),operate.col("LRZE"),operate.col("NSZE")
,operate.col("XSZE"),operate.col("SYZQY"),operate.col("CJSJ"),operate.col("CJRY")
,operate.col("CJBM"),operate.col("GXSJ"),operate.col("GXRY"),operate.col("GXBM"));
//目标表不为null,源表为null
Dataset<Row> filter3 = join.filter(dataset4.col("JBXXZJ").isNotNull().and(operate.col("JBXXZJ").isNull()))
.select(dataset4.col("JBXXZJ"),dataset4.col("NF"),dataset4.col("ZZC"),dataset4.col("JZC")
,dataset4.col("ZCFZL"),dataset4.col("YYSRZE"),dataset4.col("LRZE"),dataset4.col("NSZE")
,dataset4.col("XSZE"),dataset4.col("SYZQY"),dataset4.col("CJSJ"),dataset4.col("CJRY")
,dataset4.col("CJBM"),dataset4.col("GXSJ"),dataset4.col("GXRY"),dataset4.col("GXBM"));
//将三种情况的dataset聚合
Dataset<Row> filter_union = filter1.union(filter2).union(filter3);
//创建临时表
result.createOrReplaceTempView("result");
//将最终结果覆盖到目标表中
result.sqlContext().sql("insert overwrite table QY_QYJYQK_TEMP select * from result");
该代码中operate是源表的dataset,dataset4是目标表的dataset,先把两张表进行聚合
第一种情况:当源表主键不为空,目标表主键不为空的情况下,通过select函数取出源表的该主键对应的数据,生成一个新的dataset
第二种情况:当源表主键不为空,目标表主键为空的情况下,通过select函数取出源表的该主键对应的数据,生成一个新的dataset
第三种情况:当源表主键为空,目标表主键不为空的情况下(这种情况比较少),通过select函数取出目标表的该主键对应的数据,生成一个新的dataset
最后将三种情况的dataset通过union函数进行聚合,将最新的dataset通过insert overwrite覆盖到目标表
提示:一定要对源表和目标表的dataset进行持久化,不然会丢失数据,就酱了
写的比较粗糙,各位有什么更好的方法,希望告诉我一下哈