从rdd创建dataframe

最新推荐文章于 2022-09-21 11:38:36 发布

笛在月明

最新推荐文章于 2022-09-21 11:38:36 发布

阅读量947

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/IqqIqqIqqIqq/article/details/78960166

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

有时我们想将spark的dataframe转为pandas的dataframe，首先需要将rdd转为spark的dataframe，下面是一种方法：

from pyspark.sql.types import *
from pyspark.sql import Row

schema = StructType([StructField('name', StringType()), StructField('age',IntegerType())])
rows = [Row(name='Severin', age=33), Row(name='John', age=48)]
df = spark.createDataFrame(rows, schema)

df.printSchema()
df.show()

输出：
root
|– name: string (nullable = true)
|– age: integer (nullable = true)

+——-+—+
| name|age|
+——-+—+
|Severin| 33|
| John| 48|
+——-+—+
接下来使用df.toPandas()方法即可将spark的dataframe转为pandas的dataframe~
references:
https://stackoverflow.com/questions/44948465/creating-a-dataframe-from-row-results-in-infer-schema-issue
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SparkSession.createDataFrame