【Spark】 SparkSession与SparkContext

最新推荐文章于 2024-08-22 22:19:14 发布

孙文旭

最新推荐文章于 2024-08-22 22:19:14 发布

阅读量1.2w

点赞数 22

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_35495339/article/details/98119422

版权

Spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

文章开始先让我们看一张图：
在这里插入图片描述

从图中我们可以大概看出SparkSession与SparkContext的关系了

SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。
在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用sqlContext；对于Hive，使用hiveContext。但是随着DataSet和DataFrame的API逐渐成为标准的API，就需要为他们建立接入点。所以在spark2.0中，引入SparkSession作为DataSet和DataFrame API的切入点，SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容，SQLContext和HiveContext也被保存下来。
　SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

创建一个SparkContext对象

//Spark app 配置：应用的名字和Master运行的位置
    val sparkConf=new SparkConf()
      .setAppName("SparkAppTemplate")
      .setMaster("local[2]")
    //创建sparkContext对象：主要用于读取需要处理的数据，封装在RDD集合中；调度jobs执行
    val sc = new SparkContext(sparkConf)

创建一个SparkSession对象

//在spark 2.x中不推荐使用sparkContext对象读取数据，而是推荐SparkSession
    val spark = SparkSession.builder
      .appName("Simple Application")
      .master("local[2]")
      .getOrCreate()