pyspark.sql.utils.AnalysisException: Parquet data source does not support null data type

pyspark.sql.utils.AnalysisException: Parquet data source does not support null data type。

这个错误见过很多次了,每次都没有追根究底,也忘了每次怎么调的bug就好了。

我打印了下df.printSchema(),发现有字段的字段类型就是null。我一直以为是其他类型,只不过这个字段的值全是null。起因是我有几个字段是这样定义的,df.selectExpr(”null as A”,”null as B”),当然不知道A和B原本应该是什么类型了。

我使用df.fillna(value=‘’,subsets=[“A”,”B”])没用,我打印出来的A字段类型类型还是null,所以只能强制转换类型了。没用的原因应该是没有转换类型,你就填充一个别的类型,spark不答应吧。

df.withColumn("A",F.expr("string(A)")).withColumn("A",F.expr("string(A)"))

就这样,转换一下类型,别是null类型就可以了

  • 8
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值