大数据系统-SparkSQL基于内存的大数据分析引擎

最新推荐文章于 2022-07-21 12:22:10 发布

gao8658

最新推荐文章于 2022-07-21 12:22:10 发布

阅读量2.6k

点赞数

分类专栏：基础架构文章标签：大数据 SQL on Hadoop Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoyanjie55/article/details/17048843

版权

[1]参考文章：高彦杰，陈冠诚 Spark SQL : 基于内存的大数据分析引擎《程序员》2014 . 8

AMPLab将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求，也需要提供SQL接口来兼容原有数据库用户的使用习惯，同时也需要SQL能够进行关系模式的重组。完成这些重要的SQL任务的便是 Spark SQL和Shark这两个开源分布式大数据查询引擎，它们可以理解为轻量级Hive SQL在Spark上的实现，业界将该类技术统称为SQL on Hadoop。

在Spark 峰会2014上，Databricks宣布不再支持Shark的开发，全力以赴开发Shark的下一代技术Spark SQL，同时Hive社区也启动了Hive onSpark项目，将Spark作为Hive（除MapReduce和Tez之外的）新执行引擎。根据伯克利的BigData Benchmark测试对比数据，Shark的In Memory 性能可以达到Hive的100倍，即使是On Disk 也能达到10倍的性能提升，是Hive的强有力的替代解决方案。而作为Shark的进化版本的Spark SQL，在AMPLab最新的测试中的性能已经超过Shark。图3-1展示了Spark SQL和Hive on Spark是新的发展方向。

Development……to Spark SQL：Shark开发终止，转向Spark SQL

A new……for Spark：基于Spark的新的SQL查询引擎

Help……to Spark：帮助现有Hive用户迁移到Spark

图3-1 Spark SQL和Hive on Spark是新的发展方向

.1.1为什么使用Spark SQL

由于Shark底层依赖于Hiveÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据系统-SparkSQL基于内存的大数据分析引擎

[1]参考文章：高彦杰，陈冠诚 Spark SQL : 基于内存的大数据分析引擎《程序员》2014 . 8AMPLab将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求，也需要提供SQL接口来兼容原有数据库用户的使用习惯，同时也需要SQL能够进行关系模式...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。