PySpark的存储不同格式文件

最新推荐文章于 2024-07-25 09:48:00 发布

u013250861

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量843

点赞数

分类专栏： # 大数据/Spark 文章标签：大数据 spark python

本文链接：https://blog.csdn.net/u013250861/article/details/126170154

版权

大数据/Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

PySpark的存储不同格式文件，如：存储为csv格式、json格式、parquet格式、compression格式、table

from future import print_function, division
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

启动 Spark （如果你已经启动就不需要）

spark = SparkSession.builder.master(“local[2]”).appName(“test”).enableHiveSupport().getOrCreate()
sc = spark.sparkContext

存储为csv格式

df_csv = spark.read.csv(“…/data/ratings.csv”, header=True)
df_csv.show()
df_csv.write.csv(‘…/output/rating.csv’, header = True, mode = ‘error’) #保存数据

将文档保存在一个文件夹中

!ls -lh …/output/rating.csv #根据数量保存多个文件
!head …/output/rating.csv/part-00001-aece805c-20a7-4225-b152-40316bc8fc5e-c000.csv
df_csv.coalesce(1).write.csv(‘…/output/rating2.csv’, header = True)
!ls -lh …/output/rating.csv