SparkSession及SparkContext

最新推荐文章于 2022-06-13 17:49:06 发布

lty_sky

最新推荐文章于 2022-06-13 17:49:06 发布

阅读量416

点赞数

分类专栏： Python&Scala

本文链接：https://blog.csdn.net/lty_sky/article/details/104437633

版权

Python&Scala 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

SparkSession是Spark一个全新切入点：
SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。
在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用sqlContext；对于Hive，使用hiveContext。但是随着DataSet和DataFrame的API逐渐成为标准的API，就需要为他们建立接入点。所以在spark2.0中，引入SparkSession作为DataSet和DataFrame API的切入点，SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容，SQLContext和HiveContext也被保存下来。
　 SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

在PySpark中SparkContext使用Py4J来启动一个JVM并创建一个JavaSparkContext。默认情况下，PySpark已经创建了一个名为sc的SparkContext，并且在一个JVM进程中可以创建多个SparkContext，但是只能有一个active级别的，因此，如果我们在创建一个新的SparkContext是不能正常使用的。

lty_sky

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkSession及SparkContext

SparkSession是Spark一个全新切入点：SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不...
复制链接

扫一扫