Hive 原理 把SQL 转化成底层的MapReduce结构
RDD只能看见对象看不见对象中的内容; dataframe可以看见内容
SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据
# 创建Sparksession对象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
readwrite
# read
spark.read.format('text').load('people.txt')
# write
df.write.json('people.json')
df.write.format('json').save('people.json')
通用操作
- printSchema()
- select()
- filter()
- groupBy()
- sort()