一、Spark SQL的理解。
Spark SQL模块就是利用SQL语言,使用Spark框架,实现对结构化数据的处理。
Spark SQL提供了一个叫DataFrame的数据模型(即带有Schema信息的RDD)。怎么理解这个DataFrame,就是一个个“有名有姓”,“有定义”的RDD的集合。本身RDD的数据并没有定义,DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。
RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似,可以借鉴理解。
二、Spark SQL的编程。
1.创建SparkSession对象。
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder\ #构建器模式
.config(conf = Sparkconf())\ #设置常用属性
.getOrCreate() #创建SparkSession对象
在进入到pyspark中,默认会生成一个SparkSession对象(Spark)可以直接调用,不用再创建