pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。
pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口DataFrameReader:读取数据,返回DataFrameDataFrameWriter:把DataFrame存储到其他存储系统pyspark.sql.DataFrame、pyspark.sql.Column和 pyspark.sql.Row一,SparkSession类
在操作DataFrame之前,首先需要创建SparkSession,通过SparkSession来操作DataFrame。
1,创建SparkSession
通过Builder类来创建SparkSession,在Databricks Notebook中,spark是默认创建,表示一个SparkSession对象:
spark = SparkSession.builder .master("local") .appName("Word Count") .config("spark.some.config.option", "some-value") .getOrCreate()
函数注释:
master(master):用于设置要连接的Spark的master URL,例如local表示在本地运行,local[4] 在本地使用4核运行,appName(name)&#x