代码:
# pandas df -> pyspark df
schema = T.StructType([
T.StructField("source_item", T.StringType(), True),
T.StructField("tk_item_code", T.StringType(), True),
T.StructField("tk_item_name", T.StringType(), True)
])
map_items_py = spark.createDataFrame(map_items, schema)
print(map_items_py.count())
报错:
分析:
序列化的时候报错。
分析下pandas的dataframe,发现数据有空值,而且这个空值很奇怪:
初步认为是这个空值的特殊格式导致的。(因为一般来说,及时有空值也不应导致转pyspark dataframe错误)
删掉pandas的空值后,再转pyspark,成功。