spark周边

最新推荐文章于 2021-03-02 02:58:56 发布

bingoabin

最新推荐文章于 2021-03-02 02:58:56 发布

阅读量10w+

点赞数 1

分类专栏：大数据 hadoop 文章标签： hadoop shark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bingoxubin/article/details/79087289

版权

大数据同时被 2 个专栏收录

65 篇文章 14 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

47 篇文章 2 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark的周边技术，包括已被淘汰的Shark及其与Hive、Spark SQL的关系，SparkR的介绍、使用方式及DataFrame的基本操作，Spark Streaming的原理、与其他系统的比较及操作示例，以及Spark GraphX的应用背景、框架和PageRank演示。此外，还探讨了Spark的机器学习库MLLib，特别是线性回归实例。

摘要由CSDN通过智能技术生成

一、shark

Shark自己也没用过，不太熟悉，只了解它的背景，现在已经被Spark淘汰，也不去熟悉它了！

Spark 1.0版本开始，推出了Spark SQL。

其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。

最早来说，Hive的诞生，主要是因为要让那些不熟悉Java，无法深入进行MapReduce编程的数据分析师，能够使用他们熟悉的关系型数据库的SQL模型，来操作HDFS上的数据。因此推出了Hive。Hive底层基于MapReduce实现SQL功能，能够让数据分析人员，以及数据开发人员，方便的使用Hive进行数据仓库的建模和建设，然后使用SQL模型针对数据仓库中的数据进行统计和分析。但是Hive有个致命的缺陷，就是它的底层基于MapReduce，而MapReduce的shuffle又是基于磁盘的，因此导致Hive的性能异常低下。进场出现复杂的SQL ETL

了解本专栏

超级会员免费看

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

bingoabin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。