SparkSession-Spark的一个全新的切入点
SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。
在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的context。例如,对于Streming,我们需要使用StreamingContext;对于sql,使用sqlContext;对于Hive,使用hiveContext。但是随着DataSet和DataFrame的API逐渐成为标准的API,就需要为他们建立接入点。所以在spark2.0中,引入SparkSession作为DataSet和DataFrame API的切入点,SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容,SQLContext和HiveContext也被保存下来。
SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上
spark学习-SparkSQL-SparkSession与SparkContext
最新推荐文章于 2024-09-25 19:33:09 发布
SparkSession是Spark 2.0引入的新概念,作为DataFrame和DataSet API的统一入口,取代了早期的SparkContext、SQLContext和HiveContext。它支持创建、读取数据,并且与Hive兼容。通过工厂设计模式创建SparkSession,可以使用enableHiveSupport()启用Hive支持。
摘要由CSDN通过智能技术生成