pyspark读取指定分隔符文件，dataframe与csv互转

最新推荐文章于 2023-09-27 16:37:50 发布

木给哇啦丶

最新推荐文章于 2023-09-27 16:37:50 发布

阅读量3k

点赞数 3

分类专栏： pyspark python spark 文章标签： spark hive hdfs csv

本文链接：https://blog.csdn.net/lquarius/article/details/107008656

版权

spark 同时被 3 个专栏收录

25 篇文章 1 订阅

订阅专栏

python

15 篇文章 0 订阅

订阅专栏

pyspark

11 篇文章 0 订阅

订阅专栏

dataframe转csv，并将文件保存至HDFS，然后下载到本地

dfResult = spark.sql("select * from tmp.lanfz_dirty_imei")
dfResult.write.format("csv").option("header","true").mode("overwrite").save("/user/lanfz/dirty_imei/")
注意：结果目录可能会产生多个文件
提供以下两种方式合并文件，并获取到本地
方式一(适用较大数据量)
dfResult.write.format("csv").option("header","true").mode("overwrite").save("/user/lanfz/dirty_imei/")
hadoop fs -getmerge /user/lanfz/dirty_imei/* dirty_imei.csv
方式二(适用较小数据量)
dfResult.repartition(1).write.format("csv").option("header","true").mode("overwrite").save("/user/lanfz/dirty_imei/")
hadoop fs -get /user/lanfz/dirty_imei/* dirty_imei.csv

csv转dataframe

# 默认分隔符为","
df = spark.read.format("csv").load("/user/data.csv",header=True, inferSchema="true")
# 若分隔符为其他， 例如 制表符 \t 空格等
df = spark.read.format("csv").option("delimiter", "\t").load("/user/data.csv",header=True, inferSchema="true")
df = spark.read.format("csv").option("delimiter", " ").load("/user/data.csv",header=True, inferSchema="true")