pandas dataframe转spark dataframe报错

最新推荐文章于 2023-01-28 20:14:52 发布

Amos-hongli

最新推荐文章于 2023-01-28 20:14:52 发布

阅读量2.8k

点赞数

分类专栏： Python、文章标签： spark python

本文链接：https://blog.csdn.net/Amos_hongli/article/details/118726037

版权

Python、专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文并没有解决掉bug～

样例代码：
spark_df=spark.createdataframe(pandas_df)
注：pandas_df是一个pandas dataframe变量

报错信息：
session.py line 584 createDataFrame
session.py line 420 in _createFromLocal
context.py line 474 in parallelize
context.py line 399 defaultParallelism
AttributeError：“Nonetype” object has no attribute “defaultParallelism”

解决思路：
1、NoneType一般都是数据出问题
fillna将None都替换为‘’后，仍报错。
fillna将None都替换为‘-999’后，仍报错。
2、除了pandas_df只有一个变量就是spark,所以看看spark
首先在NoteBook中输入spark??查看，
找到的createDataFrame方法，也找到了报错信息中提到的_createFromLocal
继续深挖_createFromLocal中的parallelize,
parallelize中的defaultParallelism
发现整个调用大概是
定位至spark中某个属性为Nonetype
于是乎,决定print所有涉及到的对象,看看会发生什么

print(spark) print(spark._sc)
print(spark._sc.parallelize)
print(spark._sc._jsc.str)
print(spark._sc._jsc)
print(spark._sc.sc())
print(spark._sc.sc().defaultParallelism)

在spark刚初始化结束,与报错前都添加了以上代码,奇怪的事情发生了…
某几个对象刚初始化是正常的,但在转pandasdataframe时,为null了.神奇.

然后就想看从spark初始化,到报错前,具体哪一小段代码,发生了对象为null的情况,
将以上print代码复制粘贴了7-8吧,重跑代码…

问题不能重现了,一直跑了20多遍的无法复现…

Amos-hongli

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas dataframe转spark dataframe报错

本文并没有解决掉bug～样例代码：spark_df=spark.createdataframe(pandas_df)注：pandas_df是一个pandas dataframe变量报错信息：session.py line 584 createDataFramesession.py line 420 in _createFromLocalcontext.py line 474 in parallelizecontext.py line 399 defaultParallelismAttrib
复制链接

扫一扫

专栏目录