大数据spark篇--Spark SQL概念

最新推荐文章于 2023-04-06 19:06:06 发布

在路上的小y

最新推荐文章于 2023-04-06 19:06:06 发布

阅读量510

点赞数

分类专栏：大数据文章标签： hive 大数据 spark

本文链接：https://blog.csdn.net/qq_43709558/article/details/126948447

版权

一、Spark SQL概念
它主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。一般来说，Spark每支持一种新的应用开发，都会引入一个新的Context及相应的RDD，对于SQL这一特性来说，引入的就是SQLContext和SchemaRDD。注意：在Spark1.3之后，SchemaRDD已经更名为DataFrame，但它本质就类似一个RDD，因为可以将DataFrame无缝的转换成一个RDD。

二、Spark SQL的特点
提供标准化的SQL支持和子查询支持
支持多种数据源： Hive、 RDD、Parquet、 JSON、 JDBC等。
多种性能优化技术： in memory columnar storage、byte code generation、cost model动态评估等。
组件扩展性：对于SQL的语法解析器、分析器以及优化器，用户都可以自已重新开发，并且动态扩展。
1、内存列存储（in-memory columnar storage）
内存列存储意味着，Spark SQL的数据，不是使用Java对象的方式来进行存储，而是使用面向列的内存存储的方式来进行存储。也就是说，每一列，作为一个数据存储的单位。从而大大优化了内存使用的效率。采用了内存列存储之后，减少了对内存的消耗，也就避免了gc大量数据的性能开销。

2、字节码生成技术（byte code generation）
Spartk SQL在其catalyst模块的expressions中增加了codegen模块，对于SQL语