Hive和Spark-SQL的演变

XueminXu

已于 2023-02-01 21:09:04 修改

阅读量267

点赞数

分类专栏：大数据文章标签： hive spark hadoop spark-sql shark

于 2023-02-01 21:08:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xufox/article/details/128840577

版权

大数据专栏收录该内容

29 篇文章 0 订阅

订阅专栏

早期，Hadoop中的SQL工具只有Hive，鉴于性能考虑，加州大学伯克利分校曾经尝试修改 Apache Hive 以使其运行在 Spark上，当时的项目叫作 Shark（也就是Hive On Spark），使用Hive的SQL解析，然后将HQL翻译成RDD，和Hive兼容。

2014年7月，Databricks宣布终止Shark开发，转到SparkSQL上，SparkSQL将涵盖Shark所有特性。SparkSQL现在可以访问Hive/Json/RDBMS/Parquet/CSV等。SparkSQL中有ThriftServer服务，类似HiveServer2服务，底层执行成了Spark。

SparkSQL底层运行是RDD（Hive底层是MapReduce）。SparkSQL是Spark的一个用于处理结构化数据的模块（module），可以访问Hive、Json等。

SparkSQL是代替了Hive，访问Hive数据不需要Hive的server2服务了，但是SparkSQL实现了Hive的90%的功能，还有一些功能未实现，例如导入数据，据说不能使用load data local inpath的方式，只能先上传到HDFS上使用去掉local的方式。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive和Spark-SQL的演变

Hive到Spark-SQL的演变过程
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。