pyspark 读取本地csv_pyspark系列教程-文件读写

本教程详细介绍了如何在单机环境下使用pyspark读取和写入csv文件。首先,无需特殊配置即可开始。接着,展示了两种读取csv文件的方法,读取后数据将转化为DataFrame类型,可设置header、sep和inferSchema参数。最后,通过repartition方法将数据写入csv文件,并覆盖原有内容。
摘要由CSDN通过智能技术生成

ac381c316c173cedc3d99d0df41cd7ff.png

本教程是学习使用,使用环境是单机下。

第一步,对系统进行配置:

spark = SparkSession.builder 
    .master("local") 
    .appName("Word Count") 
    .config("spark.some.config.option", "some-value") 
    .getOrCreate()

使用默认配置即可,后期再进行讲解。

第二步,读取文件

读取后的data为pyspark中的数据类型:DataFrame

方法1:

print("ok")
filepath="./demo.csv"
data = spark.read.csv(filepath, sep=',', header=True, inferSchema=True)

方法2:

data = spark.read.format('csv').load(f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值