基于pyspark创建DataFrame的几种方法

最新推荐文章于 2024-10-13 16:12:28 发布

Nick_Spider

最新推荐文章于 2024-10-13 16:12:28 发布

阅读量1.6w

点赞数 2

本文链接：https://blog.csdn.net/weixin_39198406/article/details/104916715

版权

本文详细介绍了如何使用pyspark创建DataFrame，包括从RDD转换、键值对、pandas DataFrame，以及如何指定列类型、注册临时表，并提供从MySQL等数据源创建DataFrame的方法，帮助读者掌握DataFrame在大数据分析中的应用。

摘要由CSDN通过智能技术生成

基于pyspark创建DataFrame的几种方法

pyspark创建DataFrame

为了便于操作，使用pyspark时我们通常将数据转为DataFrame的形式来完成清洗和分析动作。

RDD和DataFrame

在上一篇pyspark基本操作有提到RDD也是spark中的操作的分布式数据对象。
这里简单看一下RDD和DataFrame的类型。

print(type(rdd))  # <class 'pyspark.rdd.RDD'>
print(type(df))   # <class 'pyspark.sql.dataframe.DataFrame'>

翻阅了一下源码的定义，可以看到他们之间并没有继承关系。

class RDD(object):

    """
    A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
    Represents an immutable, partitioned collection of elements that can be
    operated on in parallel.
    """

class DataFrame(object):
    """A distributed collection of data grouped into named columns.

    A :class:`DataFrame` is equivalent to a relational table in Spark SQL,
    and can be created using various functions in :class:`SparkSession`::
	...
    """

RDD是一种弹性分布式数据集，Spark中的基本抽象。表示一种不可变的、分区储存的集合，可以进行并行操作。
DataFrame是一种以列对数据进行分组表达的分布式集合， DataFrame等同于Spark SQL中的关系表。相同点是，他们都是为了支持分布式计算而设计。
但是RDD只是元素的集合，但是DataFrame以列进行分组，类似于MySQL的表或pandas中的DataFrame。

在这里插入图片描述
实际工作中，我们用的更多的还是DataFrame。

使用二元组创建DataFrame

尝试第一种情形发现，仅仅传入二元组，结果是没有列名称的。
于是我们尝试第二种，同时传入二元组和列名称。

a = [('Alice', 1)]
output = spark.createDataFrame(a).collect()
print(output)
# [Row(_1='Alice', _2=1)]

output = spark.createDataFrame(a, ['name', 'age']).collect()
print(output)
# [Row(name='Alice', age=1)]

这里collect()是按行展示数据表，也可以使用show()对数据表进行展示。

spark.createDataFrame(a).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

spark.createDataFrame(a, ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

使用键值对创建DataFrame

d = [{
   'name': 'Alice', 'age': 1}]
output = spark.createDataFrame(d).collect(

最低0.47元/天解锁文章

Nick_Spider

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录