![f582028b7c97f187ae4b6b31a75869ea.png](https://i-blog.csdnimg.cn/blog_migrate/d697bbe7e6d7ecc75afcc1ab6d9f013a.png)
最近工作中用到pyspark, 在家自学整理了笔记
觉得有用的话,点赞支持一下谢谢~
SparkContext & SparkSession
SparkContext主要用于创建和操作RDD
SparkSession实质上是SQLContext, HiveContext和SparkContext的组合。在Spark 2.x之前,使用不同的功能,需要引入不同的Context.
- 创建和操作RDD - SparkContext
- 使用streaming - StreamingContext
- 使用SQL - SQLContext
- 使用Hive - HiveContext
创建SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
数据表读写
(1)查看数据表
spark.catalog.listTables()
(2)从表中查询数据