pyspark系列--读写dataframe

最新推荐文章于 2025-02-20 08:08:55 发布

振裕

最新推荐文章于 2025-02-20 08:08:55 发布

阅读量2w

点赞数 4

分类专栏： spark 数据分析文章标签： spark dataframe

本文链接：https://blog.csdn.net/suzyu12345/article/details/79673473

版权

这篇博客详细介绍了如何使用PySpark连接Spark，并展示了创建DataFrame的各种方法，包括从变量、JSON、CSV、MySQL、Pandas DataFrame、Parquet和Hive读取数据。同时，还涵盖了将DataFrame保存到CSV、Parquet、Hive、HDFS和MySQL的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 连接spark
2. 创建dataframe
3. 保存数据

1. 连接spark

from pyspark.sql import SparkSession

spark=SparkSession \
        .builder \
        .appName('my_first_app_name') \
        .getOrCreate()

2. 创建dataframe

2.1. 从变量创建

# 生成以逗号分隔的数据
stringCSVRDD = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (234, "Michael", 22, "green"),
    (345, "Simone", 23, "blue")
])
# 指定模式, StructField(name,dataType,nullable)
# 其中：
#   name: 该字段的名字，
#   dataType：该字段的数据类型，
#   nullable: 指示该字段的值是否为空
from pyspark.sql.types import StructType, StructField, LongType, StringType  # 导入类型

schema = StructType([
    StructFi