pyspark创建数据

最新推荐文章于 2024-04-28 02:12:21 发布

苟住别浪

最新推荐文章于 2024-04-28 02:12:21 发布

阅读量342

点赞数 1

分类专栏： pyspark 文章标签：大数据

本文链接：https://blog.csdn.net/qq_39290182/article/details/113695788

版权

pyspark 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

该博客介绍了如何在Pyspark中通过平行化数据集创建DataFrame，并定义了数据模型包括列名、数据类型和是否可为空。示例展示了创建一个包含用户ID、姓名、年龄和眼睛颜色的数据框，并通过`show()`方法显示数据。

摘要由CSDN通过智能技术生成

pyspark创建数据

在日常工作我们经常需要制造数据，证明写的代码与自己的预期相同，借助excel创建数据就不赘述，纯粹代码构建数据代码如下。

spark_rdd = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (456, "Michael", 22, "green"),
    (789, "Simone", 23, "blue")])

# 设置dataFrame将要使用的数据模型，定义列名，类型和是否为能为空
schema = StructType([StructField("id", LongType(), True),
                     StructField("name", StringType(), True),
                     StructField("age", LongType(), True),
                     StructField("eyeColor", StringType(), True)])
# 创建DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()

结果展示如下
在这里插入图片描述

苟住别浪

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark创建数据

pyspark创建数据在日常工作我们经常需要制造数据，证明写的代码与自己的预期相同，借助excel创建数据就不赘述，纯粹代码构建数据代码如下。spark_rdd = spark.sparkContext.parallelize([ (123, "Katie", 19, "brown"), (456, "Michael", 22, "green"), (789, "Simone", 23, "blue")])# 设置dataFrame将要使用的数据模型，定义列名，类型和是否为能
复制链接

扫一扫

专栏目录