SparkSQL初识

最新推荐文章于 2024-07-16 20:32:10 发布

csdn3993023

最新推荐文章于 2024-07-16 20:32:10 发布

阅读量262

点赞数

一、 Spark SQL介绍

Spark SQL是Apache Spark's的一个模块 ,用来处理 结构化数据 ，1.0后产生；SQL语句主要体现在关系型数据库上，大数据中基于Hadoop的SQL有Hive（SQL on Hadoop）但是MapReduce计算过程中大量的磁盘落地过程消耗了大量I/O，降低运行效率，简单说就是稳定性高，计算慢，离线批处理的框架，因此其他的SQL on Hadoop工具产生。

SQL on Hadoop

- - - Hive -- 把HQL语句转换MapReduce作业提交到Yarn执行(元数据重要性)
    - Impala -- 开源的交互式SQL查询引擎,基于内存处理
    - Presto -- 分布式SQL查询引擎
    - Shark -- SQL语句翻译Spark作业，Hive跑在Spark之上,依赖Hive与Hive兼容性差
    - Drill -- 查询引擎包括SQL/FILE/HDFS/ S3
    - Phoenix -- 基于Hbase上的SQL引擎

Hive on SQL是社区发展另外一个路线，属于Hive发展计划,把Spark作为Hive的执行引擎;之前我们说的HIve作业跑在Hadoop的MapReduce上的；现在Hive不受限于一个引擎，可以采用MapReduce、Tez、Spark等引擎。

二、 Spark SQL特性

- - - 集成性-SQL查询与应用程序对接
    - 统一的数据访问-连接各种数据源（ Hive, Avro, Parquet, ORC, JSON, and JDBC ）
    - 与Hive的集成性，不需要Hive,使用Hive存在Metastores即可或者使用Hive-site文件
    - 通过JDBC和ODBC连接,start-thriftserver底层走的也是Thrift协议(Hive_server2底层基于Thrift协议，)
    - Spark SQL不仅仅是SQL，远超出SQL

三、 Spark SQL优势

A ：内存列存储（ In-Memory Columnar Storage ）

Spark SQL的表数据在内存中的存储采用是内存列式存储，而不是原生态JVM对象存储方式。

Spark SQL列式存储将数据类型相同列采用原生数组来存储，将Hive支持的复杂数据类型（如array、map等）先序化后并接成一个字节数组来存储。这样，每个列创建一个JVM对象，从而导致可以快速的GC和紧凑的数据存储；额外的，还可以使用低廉CPU开销的高效压缩方法（如字典编码、行长度编码等压缩方法）降低内存开销；更有趣的是，对于分析查询中频繁使用的聚合特定列，性能会得到很大的提高，原因就是这些列的数据放在一起，更容易读入内存进行计算

B ：字节码生成技术（ bytecode generation ，即 CG ）

数据库查询中有一个昂贵的操作是查询语句中的表达式，主要是由于JVM的内存模型引起的。比如如下一个查询：

中有一个昂在这个查询里，如果采用通用的SQL语法途径去处理，会先生成一个表达式树。

select a+b from table