在spark2.0之前,开启一个spark程序从设置sparkContext和sparkConf开始,从spark2.0以后,可以直接由sparkSession解决。
直接引入包即可。
from pyspark.sql import SparkSession
sparkSession可以有助于直接读取csv文件,且使用.read().option()可以直接获取表头,不用一个一个键入,注意同样是","作为分隔符,txt文件则无法读取表头。下面给出基本代码:
from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName(