Shark简介

最新推荐文章于 2024-04-17 09:50:04 发布

wangfeinilin

最新推荐文章于 2024-04-17 09:50:04 发布

阅读量2.5k

点赞数

分类专栏：云计算文章标签： shark 大数据分布式计算 hive hadoop

本文链接：https://blog.csdn.net/wangfeinilin/article/details/22746161

版权

Shark是一个基于Spark的高性能数据分析系统，提供与Hive兼容的HiveQL接口，速度比Hive快100倍，执行机器学习算法比Hadoop快100倍。Shark利用内存抽象和列存储提升查询效率，支持分布式数据加载、动态查询优化和机器学习功能。通过DISTRIBUTE BY实现数据共分区，提高join效率，通过Map Pruning减少不必要的数据扫描。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

Shark是一个新的数据分析系统，在集群上进行查询处理和复杂分析。Shark使用一种新的分布式内存抽象，为SQL查询和复杂分析函数提供了统一的运行引擎，并能够有效的容错。这种新的分布式内存抽象使得shark执行SQL查询的速度比Hive快100倍，执行机器学习算法比Hadoop快100倍。与之前的系统不同，shark在取得如此良好性能的同时尽可能的保留了类似于mapreduce的执行框架，以及细粒度的容错特性。为了有效的执行SQL查询，shark提供了面向列存储，查询中重计划等机制。Shark在速度上能够与MPP分析数据库相当，同时又具有MPP分析数据库不具备的容错和复杂分析的能力。

Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。