这个问题在这里已有答案:
我有一个用例,我想迭代地将数据加载到Pandas数据帧中,使用外部函数(即xgboost,未在示例代码中显示)进行一些处理,然后将结果推送到单个PySpark对象(RDD或DF) .
在将数据存储为RDD或Dataframe时,我试图让PySpark溢出到磁盘,而源是Pandas DataFrame . 似乎没有什么工作,我一直在崩溃Java驱动程序,我无法加载我的数据 . 或者,我已经尝试加载我的数据而不处理只使用基本的textFile RDD,它就像一个魅力 . 我想知道这是否是PySpark错误,否则是否有解决方法 .
示例代码:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
import pyspark
try:
SparkContext.stop(sc)
except NameError:
1
SparkContext.setSystemProperty('spark.executor.memory', '200g')
SparkContext.setSystemProperty('spark.driver.memory', '200g')
sc = SparkContext("local", "App Name")
sql_sc = SQLContext(sc)
chunk_100k = pd.read_csv("CData.csv",