2019.05.17 spark scala

最新推荐文章于 2021-09-09 20:08:40 发布

RazorH

最新推荐文章于 2021-09-09 20:08:40 发布

阅读量112

点赞数

分类专栏：日记文章标签： spark

本文链接：https://blog.csdn.net/qq_36342616/article/details/90287167

版权

日记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

查看spark源码

sparkSession

在Spark1.6中我们使用的叫Hive on spark，主要是依赖hive生成spark程序，有两个核心组件SQLcontext和HiveContext。

这是Spark 1.x 版本的语法

//set up the spark configuration and create contexts
 val sparkConf = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local")
 // your handle to SparkContext to access other context like SQLContext
 val sc = new SparkContext(sparkConf).set("spark.some.config.option", "some-value")
 val sqlContext = new org.apache.spark.sql.SQLContext(sc)

而Spark2.0中我们使用的就是sparkSQL，是后继的全新产品，解除了对Hive的依赖。

从Spark2.0以上的版本开始，spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext

来实现对数据的加载、转换、处理等工作，并且实现了SQLcontext和HiveContext的所有功能。

我们在新版本中并不需要之前那么繁琐的创建很多对象，只需要创建一个SparkSession对象即可。

SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并支持把DataFrame转换成SQLContext自身中的表。

然后使用SQL语句来操作数据，也提供了HiveQL以及其他依赖于Hive的功能支持。

创建SparkSession

SparkSession 是 Spark SQL 的入口。

使用 Dataset 或者 Datafram 编写 Spark SQL 应用的时候，第一个要创建的对象就是 SparkSession。

    val spark = SparkSession
      .builder()
      .appName(name)
//      .config("spark.debug.maxToStringFields", 1000)
//      .config("spark.rpc.message.maxSize", 512)
            .master("local[*]")
      .getOrCreate()
    spark

  /**
   * Creates a [[SparkSession.Builder]] for constructing a [[SparkSession]].
   *
   * @since 2.0.0
   */
  def builder(): Builder = new Builder

我思维比较发散，最近的准备做的是边查看spark源码，学习scala 语法设计等，变查看相关的java源码。同时移步同天的java日志中。还有个想法就是同天同步一下工作内容。

Builder 是 SparkSession 的构造器。通过 Builder, 可以添加各种配置。

Builder 的方法如下：

Method	Description
getOrCreate	获取或者新建一个 sparkSession
enableHiveSupport	增加支持 hive Support
appName	设置 application 的名字
config	设置各种配置

构造sparksession

@InterfaceStability.Stable
object SparkSession extends Logging {

  /**
   * Builder for [[SparkSession]].
   */
  @InterfaceStability.Stable
  class Builder extends Logging {

    private[this] val options = new scala.collection.mutable.HashMap[String, String]

    private[this] val extensions = new SparkSessionExtensions

    private[this] var userSuppliedContext: Option[SparkContext] = None

    private[spark] def sparkContext(sparkContext: SparkContext): Builder = synchronized {
      userSuppliedContext = Option(sparkContext)
      this
    }

在这看到hashmap 就想了解一下

RazorH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2019.05.17 spark scala

查看spark源码sparkSession在Spark1.6中我们使用的叫Hive on spark，主要是依赖hive生成spark程序，有两个核心组件SQLcontext和HiveContext。这是Spark 1.x 版本的语法//set up the spark configuration and create contexts val sparkConf = new ...
复制链接

扫一扫

专栏目录