SparkSQL总结

最新推荐文章于 2022-10-06 22:47:51 发布

Arsenar7

最新推荐文章于 2022-10-06 22:47:51 发布

阅读量756

点赞数 2

分类专栏： SparkSQL Spark 文章标签： SparkSQL

本文链接：https://blog.csdn.net/Arsenar7/article/details/89385466

版权

本文详细介绍了SparkSQL的起源、作用、运行原理及其特点，包括易整合、统一的数据访问方式、Hive兼容性及标准的数据连接。SparkSession作为新的切入点，简化了Spark的使用。此外，文章还探讨了Dataset与DataFrame的区别，以及如何通过不同方式创建Dataset，如读取JSON、非JSON格式的RDD、Parquet文件以及JDBC和Hive数据源。

摘要由CSDN通过智能技术生成

一.SparkSQL介绍：

1.简单来说，Hive是Shark的前身，Shark则是SparkSQL的前身,SparkSQL产生的原因则是由于Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成。SparkSQL抛弃了原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。
能够在scala，java等开发语言中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语句访问Hive数据，并将结果取回作为RDD使用。

2. SparkSQL作用：提供一个编程抽象（DataFrame）并且作为分布式 SQL 查询引擎。

3.SparkSQL运行原理简述：将 Spark SQL 转化为 RDD，然后提交到集群执行。

4.SparkSQL特点：

4.1 易整合：将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。

4.2 统一的数据访问方式：可以用相同的方式连接到任何数据源。

4.3 兼容Hive

4.4 标准的数据连接

5.SparkSession：

SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。
在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用sqlContext；对于Hive，使用hiveContext。但是随着Dataset和DataFrame的API逐渐成为标准的API，就需要为他们建立接入点。所以在spark2.0中，引入SparkSession作为Dataset和DataFrame API的切入点，SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容，SQLContext和HiveContext也被保存下来。
　　
　　SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

特点：

　　 ---- 为用户提供一个统一的切入点使用Spark 各项功能

---- 允许用户通过它调用 DataFrame 和 Dataset 相关 API 来编写程序

---- 减少了用户需要了解的一些概念，可以很容易的与 Spark 进行交互

---- 与 Spark 交互之时不需要显示的创建 SparkConf, SparkContext 以及 SQlContext，这些对象已经封闭在 SparkSession 中

6.Dataset与DataFrame：

Dataset也是一个分布式数据容器。与RDD类似，然而Dataset更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即schema。同时，与Hive类似，Dataset也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看， Dataset API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。

Dataset的底层封装的是RDD，当RDD的泛型是Row类型的时候，我们也可以称它为DataFrame。即