{SparkConf,SparkContext,HiveContext}和{SparkSession}的爱恨情仇详解

最新推荐文章于 2022-07-25 16:55:20 发布

╭⌒若隐_RowYet——大数据

最新推荐文章于 2022-07-25 16:55:20 发布

阅读量763

点赞数 2

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/LXWalaz1s1s/article/details/105765882

版权

Spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

场景

手写Spark的时候，每个程序的主入口都会用到SparkConf,SparkContext,HiveContext或者SparkSession,那么这三者之间有什么联系呢？
首先,带Context （SparkContext，HiveContext等，后续简称Context）关键字和SparkSession是Spark程序的主入口，SparkConf是加载环境配置信息，举个不恰当的比喻，SparkConf有点像画板，给你一开始的整个平面布局，长宽高设置，Context和SparkSession有点像画笔，你产生的各种请求及操作，但是前提不能脱离画板，总之{SparkConf,SparkContext,HiveContext}是一组，SparkSession是一组，SparkSession是spark 2.0以上版本的新产物。

Context和SparkSession的爱恨情仇

Spark早期的版本，主要还是Spark Core，估计当时也没想太多，就给了最霸气的SparkContext，其实按照这个架构思想，叫CoreContext比较合适，所以早期版本也就基本用的SparkConf,SparkContext，后来Hive来了，那本着面向对象思想，Hive又要有自己的特性，所以基于SparkContext派生出HiveContext,后来Spark Stream来了，于是……
这就有点无底洞了对吧，弊端就显示出来了，于是在spark 2.X版本就改进了这个架构，我不管你服务于什么对象的Context，你都给统一叫SparkSession，当然，也保证了SparkSession对之前各种Context的兼容性，如果你发现你身边的小伙伴用的是spark 2.X，但是却还在用SparkConf,SparkContext，那你要仔细研读下他的代码，不出意外的话80%是在走歪路，当然，代码不一定报错，因为SparkSession兼容Context,但是你可以大声的跟他说，大哥你out了，比如下面这段代码：

from pyspark.sql import HiveContext,SparkSession
        #初始化，如果要执行hive sql,需要在初始化中加入enableHiveSupport()
        spark = SparkSession.builder.master("yarn").appName("DistributeData").enableHiveSupport().getOrCreate()
        hive_context = HiveContext(spark)
        spark_df = spark.sql(hivesql)

以上代码就是三者之间混用，虽然不报错，但是总有些瑕疵，其实改成下面这样的比较合理:

from pyspark.sql import SparkSession
        #初始化，如果要执行hive sql,需要在初始化中加入enableHiveSupport()
        spark = SparkSession.builder.master("yarn").appName("DistributeData").enableHiveSupport().getOrCreate()
        spark_df = spark.sql(hivesql)
        return spark_df

Context和SparkSession实战举列（pysaprk为例子）

如果你用老版本的{SparkConf,SparkContext,HiveContext}组合，基本初始化代码如下，setAppName是设置程序跑的名字，方便在Yarn上监控起来方便，setMaster是选择程序跑的模式，一般生产都选择在资源管理器yarn模式下运行。

from pyspark import HiveContext,SparkContext,SparkConf

conf = SparkConf().setMaster("yarn").setAppName("HiveContext")
sc = SparkContext(conf=conf)
hc = HiveContext(conf)
hc.sql("select * from dw.ods_rs_assemble_tbd_device_style where event_day='20200420'").show()

新版本，我们也不能太out对吧，新版本SparkSession你就用以下这种初始化的代码，setMaster变成了master，setAppName变成了appName,删繁就简，功力不减反而更强。

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("yarn").appName("DistributeData").enableHiveSupport().getOrCreate()
spark_df = spark.sql("select * from dw.ods_rs_assemble_tbd_device_style where event_day='20200420'").show()

spark-shell环境下的有趣发现

现在，再想想，当你启动spark-shell后，如下场景。

(base) [hadoop@shucang-10 ~]$ spark-shell --master yarn --deploy-mode client --executor-memory 2G --executor-cores 1 --num-executors 4 --queue etl
2020-04-26 19:47:35 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
2020-04-26 19:47:42 WARN  Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
Spark context Web UI available at http://shucang-10.szanba.ren:4041
Spark context available as 'sc' (master = yarn, app id = application_1587046987432_6527).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.3
      /_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_141)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

你得细细的品以下关键字：

Spark context available as 'sc' (master = yarn, app id = application_1587046987432_6527).
Spark session available as 'spark'.
其实这里就是在做我们实战代码的事情，spark-shell环境下是帮你初始化了两个对象sc和spark，才能让你很开心的直接在spark-shell里面写以下语句:

spark.sql("select * from dw.ods_rs_assemble_tbd_device_style where event_day='20200420'").show()

看望这篇文章，是不是对SparkConf,SparkContext,HiveContext和SparkSession有了深刻的印象了。

╭⌒若隐_RowYet——大数据

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
{SparkConf,SparkContext,HiveContext}和{SparkSession}的爱恨情仇详解

场景手写Spark的时候，每个程序的主入口都会用到SparkConf,SparkContext,HiveContext或者SparkSession,那么这三者之间有什么联系呢？首先,带Context （SparkContext，HiveContext等，后续简称Context）关键字和SparkSession是Spark程序的主入口，SparkConf是加载环境配置信息，举个不恰当...
复制链接

扫一扫