sparkSQL创建仅带schema的空目录

背景

我们使用spark在做etl加工时,有时会遇到累积库迭代更新数据需求,但又没有首份数据可用,这个时候,就需要创建一个仅带schema信息的空数据路径。

方案一

利用schema创建,参见sparkSQL自定义schema的方法

  1. 方法一:
import spark.implicits._
import org.apache.spark.sql.Row
spark.createDataFrame(spark.sparkContext.emptyRDD[Row], myschema).write.parquet("/topath")

方案二

利用case class样例类创建,假设MyClass是定义好的样例类

  1. 方法一
spark.createDataFrame(spark.sparkContext.emptyRDD[MyClass]).write.parquet("/topath")
  1. 方法二
spark.sparkContext.emptyRDD[MyClass].toDF.write.parquet("/topath")
  1. 方法三
import spark.implicits._
spark.emptyDataset[MyClass].write.parquet("/topath")
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值