spark sql

最新推荐文章于 2023-03-20 22:07:24 发布

程序猿小飞

最新推荐文章于 2023-03-20 22:07:24 发布

阅读量142

点赞数

分类专栏： spark sql

本文链接：https://blog.csdn.net/qq_43617838/article/details/89377241

版权

spark 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

sql

2 篇文章 0 订阅

订阅专栏

Spark SQL就不只是针对Hive中的数据了，而且可以支持其他很多数据源的查询。

Spark SQL的特点
1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。
2、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。
3、组件扩展性：对于SQL的语法解析器、分析器以及优化器，用户都可以自己重新开发，并且动态扩展。

在2014年6月1日的时候，Spark宣布了不再开发Shark，全面转向Spark SQL的开发。
Spark SQL的性能比Shark来说，又有了数倍的提升。

Spark SQL的性能优化技术简介：

1、内存列存储（in-memory columnar storage）
内存列存储意味着，Spark SQL的数据，不是使用Java对象的方式来进行存储，而是使用面向列的内存存储的方式来进行存储。也就是说，每一列，作为一个数据存储的单位。从而大大优化了内存使用的效率。采用了内存列存储之后，减少了对内存的消耗，也就避免了gc大量数据的性能开销。

2、字节码生成技术（byte-code generation）
Spark SQL在其catalyst模块的expressions中增加了codegen模块，对于SQL语句中的计算表达式，比如select num + num from t这种的sql，就可以使用动态字节码生成技术来优化其性能。

3、Scala代码编写的优化
对于Scala代码编写中，可能会造成较大性能开销的地方，自己重写，使用更加复杂的方式，来获取更好的性能。比如Option样例类、for循环、map/filter/foreach等高阶函数，以及不可变对象，都改成了用null、while循环等来实现，并且重用可变的对象。

程序猿小飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark sql

Spark SQL就不只是针对Hive中的数据了，而且可以支持其他很多数据源的查询。Spark SQL的特点1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性：对于SQL的语法解析器、分析器以及优化器，...
复制链接

扫一扫