pyspark.sql.utils.AnalysisException: Parquet data source does not support null data type。
这个错误见过很多次了,每次都没有追根究底,也忘了每次怎么调的bug就好了。
我打印了下df.printSchema(),发现有字段的字段类型就是null。我一直以为是其他类型,只不过这个字段的值全是null。起因是我有几个字段是这样定义的,df.selectExpr(”null as A”,”null as B”),当然不知道A和B原本应该是什么类型了。
我使用df.fillna(value=‘’,subsets=[“A”,”B”])没用,我打印出来的A字段类型类型还是null,所以只能强制转换类型了。没用的原因应该是没有转换类型,你就填充一个别的类型,spark不答应吧。
df.withColumn("A",F.expr("string(A)")).withColumn("A",F.expr("string(A)"))
就这样,转换一下类型,别是null类型就可以了