pyspark创建数据

该博客介绍了如何在Pyspark中通过平行化数据集创建DataFrame,并定义了数据模型包括列名、数据类型和是否可为空。示例展示了创建一个包含用户ID、姓名、年龄和眼睛颜色的数据框,并通过`show()`方法显示数据。
摘要由CSDN通过智能技术生成

pyspark创建数据

在日常工作我们经常需要制造数据,证明写的代码与自己的预期相同,借助excel创建数据就不赘述,纯粹代码构建数据代码如下。

spark_rdd = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (456, "Michael", 22, "green"),
    (789, "Simone", 23, "blue")])

# 设置dataFrame将要使用的数据模型,定义列名,类型和是否为能为空
schema = StructType([StructField("id", LongType(), True),
                     StructField("name", StringType(), True),
                     StructField("age", LongType(), True),
                     StructField("eyeColor", StringType(), True)])
# 创建DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()

结果展示如下
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值