Pyspark读写csv,txt,json,xlsx,xml,avro等文件

大数据翻身

已于 2023-09-27 17:25:48 修改

阅读量2.4k

点赞数 1

于 2023-09-27 16:37:50 首次发布

本文链接：https://blog.csdn.net/qq_56870570/article/details/133356197

版权

本文讲述了Spark对txt、csv、parquet、json、excel、xml、orc、avro及MySQL数据的读写方法，包括数据源加载、格式设置和保存策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Spark读写txt文件

读：

df = spark.read.text("/home/test/testTxt.txt").show()
+-------------+
|        value|
+-------------+
|      a,b,c,d|
|123,345,789,5|
|34,45,90,9878|
+-------------+

2. Spark读写csv文件

读：

# 文件在hdfs上的位置
file_path = r"/user/lanyue/data.csv"
# 方法一
# 推荐这种，指定什么文件格式都可以，只需要修改参数format即可
# 不同的格式其load函数会有不同，用的时候请自行搜索。
df = spark.read.format("csv").load(file_path, header=True, inferSchema=True, encoding="utf-8", sep=',') 
# sep=','，表示指定分隔符为逗号，同参数delimiter。
# header=TRUE，表示数据的第一行为列名
# inferSchema，表示是否对字段类型进行推测。=False，默认读取后都按照文本字符处理。=True表示自动推断schema。

# 或者下面这种形式。这两种形式都可以
df = spark.read.format("csv").option("encoding","utf-8").option("header",Tr