Spark SQL

最新推荐文章于 2024-07-21 21:43:54 发布

小邱继续努力

最新推荐文章于 2024-07-21 21:43:54 发布

阅读量70

点赞数

文章标签： spark sql 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41804037/article/details/132154969

版权

一. Spark SQL 前世今生

1. Shark

Hive on Spark

Hive：类似于sql的HiveQL语言， sql==> mapreduce

特点：mapreduce

改进：hive on tez，hive on spark，hive on mapreduce

Spark：Hive on spark ==> shark（hive on spark）

特点：基于spark，基于内存的列式存储，与hive能够兼容

缺点：HiveQL的解析，逻辑执行计划生成，执行计划的优化是依赖于hive的，仅仅只是把物理执行计划从mapreduce作业替换成了spark作业

2. Shark 终止

shark终止之后，产生了两个分支：

hive on spark：hive社区，源码是在hive中；

Spark sql：Spark社区，源码是在spark中，支持多种数据源，多种优化技术，扩展性好

二. SQL on Hadoop

1. Hive

sql ==> mapreduce

metastore：元数据

sql：database，table，view

facebook

2. impala

cloudera：cdh（建议生产使用hadoop系列版本），cn

sql：自己的守护进程执行的，非mapreduce

metastore

3.presto

facebook

京东

sql

4. drill

sql

访问：hdfs，rdbms，json，mangodb，s3，hive

5.Spark SQL

sql

dataframe/dataset api

metastore

访问：hdfs，rdbms，json，mangodb，s3，hive =>外部数据源

小邱继续努力

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL

Hive：类似于sql的HiveQL语言， sql==> mapreduce特点：mapreduce改进：hive on tez，hive on spark，hive on mapreduce特点：基于spark，基于内存的列式存储，与hive能够兼容缺点：HiveQL的解析，逻辑执行计划生成，执行计划的优化是依赖于hive的，仅仅只是把物理执行计划从mapreduce作业替换成了spark作业。
复制链接

扫一扫

小邱继续努力 CSDN认证博客专家 CSDN认证企业博客

码龄6年

5: 原创

163万+: 周排名

62万+: 总排名

2014: 访问

: 等级

53: 积分

2: 粉丝

3: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

最新评论

Hive内置运算符
CSDN-Ada助手: 非常感谢您的持续创作，恭喜您完成了第5篇博客！《Hive内置运算符》这个标题听起来非常有趣，我期待着阅读您的文章。您在Hive内置运算符方面的知识一定非常丰富，我相信读者们会从您的博客中获益匪浅。不过，如果我可以提一个谦虚的建议的话，我希望您在文章中能够更加深入地阐述一些实际应用场景，这样读者们可以更好地理解这些运算符的使用方法。期待看到您下一步的创作！
大数据开发：hive sql 中的4个by排序方法
CSDN-Ada助手: 非常感谢您分享这篇有关hive sql的博客！恭喜您不断创作，让我们受益匪浅。我很期待您未来的创作，希望您继续分享关于大数据开发的知识，并分享您在这方面的实践经验。感谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
数据库-Oracle性能优化
CSDN-Ada助手: 非常感谢您分享的有关Oracle优化的经验，这对于我们这些初学者来说非常有帮助。除了您提到的优化器hints，还有一些其他的优化技巧，比如使用视图或者内联查询可以减少表的扫描次数，从而提高查询效率。此外，您也可以尝试使用分区表、索引优化等技术来进一步提高性能。希望您能够继续分享您的经验和技巧，让我们一起成长！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据去重:数据量过亿的情况下用哪种方式去重最好?
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。