Shark为何被抛弃？

最新推荐文章于 2024-05-03 22:50:38 发布

道友，且慢

最新推荐文章于 2024-05-03 22:50:38 发布

阅读量745

点赞数

分类专栏： spark sql

本文链接：https://blog.csdn.net/qqqq0199181/article/details/103571969

版权

spark sql 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Shark的来历

Shark是由Reynold Xin从2011年开始主导开发的。当时Hive几乎是唯一的SQL-Hadoop的选择方案，然而hive的性能受限于MapReduce，无法使用spark的计算模型。Shark的提出就是针对这种需求的，它的目标是技能达到企业数据仓库的性能，又你能够具有MapReduce的水平扩展能力。

Shark的实现原理

Shark建立在Hive代码的基础上，只修改了内存管理、物理计划、执行3个模块中的部分逻辑。Shark通过将Hive的部分物理执行计划交换出来，最终将HiveQL转换为spark的计算模型，使之能运行在Spark引擎上，从而使得SQL查询的速度得到10~100倍的提升。

被淘汰的原因

那么Shark后来为什么会被Spark SQL所取代呢？
随着Spark的不断发展，Shark对Hive的重度依赖体现在架构上的瓶颈越来越突出。一方面，Hive的语法解析和查询优化等模块本身针对的是MapReduce，限制了在Spark系统上的深度优化和维护；另一方面，过度依赖Hive制约了Spark的“One Stack Rule Them All” 既定方针，也制约了技术栈中各个组件的灵活集成。而Spark SQL抛弃了原有Shark的架构方式，但汲取了Shark的一些有点，如内存列存储、Hive兼容性等，重新开发了SQL各个模块的代码。由于摆脱了对Hive的依赖，Spark SQL在数据兼容、性能优化、组件扩展方面都得到了极大提升。