Spark菜鸟进阶

最新推荐文章于 2024-07-31 13:16:03 发布

qin_na

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量6.4k

点赞数

分类专栏：大数据入门

本文链接：https://blog.csdn.net/qin_na/article/details/78875108

版权

大数据入门专栏收录该内容

2 篇文章 0 订阅

订阅专栏

关于 Spark SQL/DataFrame（ Spark1.4.1 版本）

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块，该模块里最重要的概念就是 DataFrame, Spark 的 DataFrame 是基于早期版本中的 SchemaRDD。Spark DataFrame 以 RDD 为基础，但是带有 Schema 信息，它类似于传统数据库中的二维表格。
Spark SQL 模块目前支持将多种外部数据源的数据转化为 DataFrame，并像操作 RDD 或者将其注册为临时表的方式处理和分析这些数据。当前支持的数据源有：
Json
文本文件
RDD
关系数据库
Hive
Parquet
一旦将 DataFrame 注册成临时表，我们就可以使用类 SQL 的方式操作这些数据。

Spark 2.0介绍

RDD是Spark中重要的API，然而它的创建和操作得使用sparkContext提供的API；对于RDD之外的其他东西，我们需要使用其他的Context。比如对于流处理来说，我们得使用StreamingContext；对于SQL得使用sqlContext；而对于hive得使用HiveContext。然而DataSet和Dataframe提供的API逐渐称为新的标准API，我们需要一个切入点来构建它们，所以在 Spark 2.0中我们引入了一个新的切入点(entry point)：SparkSession
　　SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。
　SparkSession的设计遵循了工厂设计模式　

//创建SQLSession
SparkSession sparkSession = SparkSession.builder.  
      master("local")  
      .appName("spark session example")  
      .getOrCreate();
//创建hiveContext
SparkSession sparkSession = SparkSession.builder.  
      master("local")  
      .appName("spark session example")  
      .enableHiveSupport()  
      .getOrCreate();