SparkSQL总结

本文详细介绍了SparkSQL的起源、作用、运行原理及其特点,包括易整合、统一的数据访问方式、Hive兼容性及标准的数据连接。SparkSession作为新的切入点,简化了Spark的使用。此外,文章还探讨了Dataset与DataFrame的区别,以及如何通过不同方式创建Dataset,如读取JSON、非JSON格式的RDD、Parquet文件以及JDBC和Hive数据源。
摘要由CSDN通过智能技术生成

一.SparkSQL介绍:

    1.简单来说,Hive是Shark的前身,Shark则是SparkSQL的前身,SparkSQL产生的原因则是由于Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成。SparkSQL抛弃了原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

  • SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。

  • 能够在scala,java等开发语言中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。

 2. SparkSQL作用:提供一个编程抽象(DataFrame) 并且作为分布式 SQL 查询引擎。

3.SparkSQL运行原理简述:将 Spark SQL 转化为 RDD, 然后提交到集群执行。

4.SparkSQL特点:

   4.1 易整合:将sql查询与spark程序无缝混合,可以使用java、scala、python、R等语言的API操作。

  4.2 统一的数据访问方式:可以用相同的方式连接到任何数据源。

  4.3 兼容Hive

  4.4 标准的数据连接

5.SparkSession:

        SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。 
  在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的context。例如,对于Streming,我们需要使用StreamingContext;对于sql,使用sqlContext;对于Hive,使用hiveContext。但是随着Dataset和DataFrame的API逐渐成为标准的API,就需要为他们建立接入点。所以在spark2.0中,引入SparkSession作为Dataset和DataFrame API的切入点,SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容,SQLContext和HiveContext也被保存下来。 
   
  SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的。

特点:

   ---- 为用户提供一个统一的切入点使用Spark 各项功能

        ---- 允许用户通过它调用 DataFrame 和 Dataset 相关 API 来编写程序

        ---- 减少了用户需要了解的一些概念,可以很容易的与 Spark 进行交互

        ---- 与 Spark 交互之时不需要显示的创建 SparkConf, SparkContext 以及 SQlContext,这些对象已经封闭在 SparkSession 中

6.Dataset与DataFrame:

Dataset也是一个分布式数据容器。与RDD类似,然而Dataset更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,Dataset也支持嵌套数据类型(struct、array和map)。从API易用性的角度上 看, Dataset  API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。

Dataset的底层封装的是RDD,当RDD的泛型是Row类型的时候,我们也可以称它为DataFrame。即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值