1.SparkSession:
training = spark.read.format("csv").options(header='true',inferschema='true',encoding='gbk').load(r"hdfs://localhost:9000/taobao/dataset/train.csv"
本文介绍了如何利用SparkSession和SparkContext来读取CSV文件。首先,通过SparkSession创建DataFrame,然后使用read()方法加载CSV数据。接着,可以通过SQL查询操作DataFrame。另外,我们还可以借助SparkContext获取数据,但其主要用于更底层的数据处理。
1.SparkSession:
training = spark.read.format("csv").options(header='true',inferschema='true',encoding='gbk').load(r"hdfs://localhost:9000/taobao/dataset/train.csv"
913
180
3556

被折叠的 条评论
为什么被折叠?