Spark SQL

最新推荐文章于 2024-04-14 17:16:52 发布

bingoabin

最新推荐文章于 2024-04-14 17:16:52 发布

阅读量10w+

点赞数 1

分类专栏：大数据文章标签： spark sparksql shark on-spark

本文链接：https://blog.csdn.net/bingoxubin/article/details/79082557

版权

大数据专栏收录该内容

65 篇文章 10 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

1. 背景

Spark 1.0版本开始，推出了Spark SQL。

其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark
SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。

最早来说，Hive的诞生，主要是因为要让那些不熟悉Java，无法深入进行MapReduce编程的数据分析师，能够使用他们熟悉的关系型数据库的SQL模型，来操作HDFS上的数据。因此推出了Hive。Hive底层基于MapReduce实现SQL功能，能够让数据分析人员，以及数据开发人员，方便的使用Hive进行数据仓库的建模和建设，然后使用SQL模型针对数据仓库中的数据进行统计和分析。但是Hive有个致命的缺陷，就是它的底层基于MapReduce，而MapReduce的shuffle又是基于磁盘的，因此导致Hive的性能异常低下。进场出现复杂的SQL
ETL，要运行数个小时，甚至数十个小时的情况。

后来，Spark推出了Shark，Shark与Hive实际上还是紧密关联的，Shark底层很多东西还是依赖于Hive，但是修改了内存管理、物理计划、执行三个模块，底层使用Spark的基于内存的计算模型，从而让性能比Hive提升了数倍到上百倍。

然而，Shark还是它的问题所在，Shark底层依赖了Hive的语法解析器、查询优化器等组件，因此对于其性能的提升还是造成了制约。所以后来Spark团队决定，完全抛弃Shark，推出了全新的Spark
SQL项

了解本专栏

超级会员免费看

bingoabin

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark SQL

1. 背景 Spark 1.0版本开始，推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。最早来说，Hive的诞生，主要是因为要让那些不熟悉Java
复制链接

扫一扫