本教程是学习使用,使用环境是单机下。
第一步,对系统进行配置:
spark = SparkSession.builder
.master("local")
.appName("Word Count")
.config("spark.some.config.option", "some-value")
.getOrCreate()
使用默认配置即可,后期再进行讲解。
第二步,读取文件
读取后的data为pyspark中的数据类型:DataFrame
方法1:
print("ok")
filepath="./demo.csv"
data = spark.read.csv(filepath, sep=',', header=True, inferSchema=True)
方法2:
data = spark.read.format('csv').load(f