目录
pandas的dataframe转spark的dataframe
spark的dataframe转pandas的dataframe
本篇介绍Pandas的DataFrame和Spark的DataFrame之间的互转操作。
pandas的dataframe转spark的dataframe
import pandas as pd
# 加载数据
pd_df = pd.read_csv("./you_csv_file.csv")
# 展示columns
pd_df.columns
# 输出 Index(['ColA', 'ColB', 'ColC'], dtype='object')
# pandas的dataframe转spark的dataframe
spark_df = spark.createDataFrame(pd_df)
# done
spark的dataframe转pandas的dataframe
# spark_df为spark的DataFrame
# pd_df为pandas的DataFrame
# spark的dataframe转pandas的dataframe
pd_df = spark_df.toPa