spark如何解决文件不存在_spark读取不存在的文件返回自定义schema的emptydataframe

当Spark尝试读取不存在的文件时,通常会报错。通过自定义schema并重写baseRelationToDataFrame逻辑,可以使得在文件不存在时返回一个空的、带有自定义schema的DataFrame。具体实现包括定义schema,如`priceSchema`,然后使用`DataSource.apply`结合`resolveRelation(false)`来读取文件,即使文件不存在也会返回一个空DataFrame。
摘要由CSDN通过智能技术生成

spark读取不存在文件会报错,当文件不存在时,能返回个空的自定义shema的dataframe是不是更好,思路如下

自定义schema,重写baseRelationToDataFrame逻辑,向resolveRelation传入false表示,当文件不存在时返回空的dataframe

代码如下

import org.apache.spark.sql.execution.datasources.DataSource

import org.apache.spark.sql.types._

scala> val priceSchema = new StructType().add("model",StringType).add("brand",StringType).add("release_date",StringType).add("price_group",StringType)

scala> var df = spark.baseRelationToDataFrame(DataSource.apply(spark,"csv",Array("/user/sdev/liujichao/all_devices.csv").toSeq,Option(priceSchema),options= Map("header" -> "true")).resolveRelation(false))

df: org.apache.spark.sql.DataFrame = [model: string, brand: string ... 2 more fields]

scala> df.show(false)

+--------+--------+---------

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值