Spark SQL的前世今生

最新推荐文章于 2022-08-27 21:50:53 发布

威少SOS

最新推荐文章于 2022-08-27 21:50:53 发布

阅读量627

点赞数

分类专栏： # Spark SQL 文章标签： Spark SQL

本文链接：https://blog.csdn.net/weixin_39966065/article/details/91062745

版权

Spark SQL 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文探讨了Spark SQL的发展历程，从Hive、Shark到Spark SQL的演变，强调了Spark SQL的性能优化技术，包括内存列存储、字节码生成和Scala代码优化，旨在提高数据处理效率。

摘要由CSDN通过智能技术生成

一：顺序图谱

二：为什么有Hive,Shark,Spark SQL等一类的组件？

1、内存列存储（in-memory columnar storage）

2、字节码生成技术（byte-code generation）

3、Scala代码编写的优化

一：顺序图谱

Hadoop.Hive => Shark => Spark SQL

二：为什么有Hive,Shark,Spark SQL等一类的组件？

意义：让那些不熟悉Java，无法深入进行MapReduce编程的数据分析师，能够使用他们熟悉的关系型数据库的SQL模型，来操作HDFS上的数据————数据仓库的建模和建设，对数据仓库中的数据进行统计和分析

（1）Hive

底层基于MapReduce，而MapReduce的shuffle又是基于磁盘的 => 性能异常低下。进场出现复杂的SQL ETL，要运行数个小时，甚至数十个小时的情况

（2）Shark

依赖了Hive的语法解析器、查询优化器等组件
修改了内存管理、物理计划、执行三个模块,底层使用Spark的基于内存的计算模型

（3）Spark SQL

1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。
2、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。
3、组件扩展性：对于SQL的语法解析器、分析器以及优化器，用户都可以自己重新开发，并且动态扩展

三：Spark SQL的性能优化技术详解

1、内存列存储（in-memory columnar storage）

内存列存储意味着，Spark SQL的数据，不是使用Java对象的方式来进行存储，而是使用面向列的内存存储的方式来进行存储。也就是说，每一列，作为一个数据存储的单位。从而大大优化了内存使用的效率。采用了内存列存储之后，减少了对内存的消耗，也就避免了gc大量数据的性能开销。

事例：在大数据量中，面向纵列比横列而言，大大的减少了对象的产生，从而大大减少了因为多个对象而产生的指针占用字节和因对象过多导致的GC性能开销