pandas dataframe 转 pyspark dataframe报错：ModuleNotFoundError: No module named ‘pandas‘

最新推荐文章于 2024-04-23 20:29:22 发布

euler1983

最新推荐文章于 2024-04-23 20:29:22 发布

阅读量866

点赞数

分类专栏： pyspark

本文链接：https://blog.csdn.net/euler1983/article/details/113312015

版权

pyspark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在尝试将Pandas DataFrame转换为PySpark DataFrame时遇到序列化错误，原因是原始数据中存在特殊格式的空值。分析Pandas DataFrame后发现这些空值可能导致转换失败。删除这些空值后，转换过程顺利完成。问题的关键在于识别和处理这种特殊格式的空值，以确保数据在不同框架间顺利迁移。

摘要由CSDN通过智能技术生成

代码：

# pandas df -> pyspark df
schema = T.StructType([
    T.StructField("source_item", T.StringType(), True),
    T.StructField("tk_item_code", T.StringType(), True),
    T.StructField("tk_item_name", T.StringType(), True)
])
map_items_py = spark.createDataFrame(map_items, schema)
print(map_items_py.count())

报错：

分析:

序列化的时候报错。

分析下pandas的dataframe，发现数据有空值，而且这个空值很奇怪：

初步认为是这个空值的特殊格式导致的。（因为一般来说，及时有空值也不应导致转pyspark dataframe错误）

删掉pandas的空值后，再转pyspark，成功。

euler1983

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas dataframe 转 pyspark dataframe报错：ModuleNotFoundError: No module named ‘pandas‘

代码：# pandas df -> pyspark dfschema = T.StructType([ T.StructField("source_item", T.StringType(), True), T.StructField("tk_item_code", T.StringType(), True), T.StructField("tk_item_name", T.StringType(), True)])map_items_py = spark.crea
复制链接

扫一扫

专栏目录