大数据入门课程：Hadoop和spark的性能比较

最新推荐文章于 2024-01-03 16:05:36 发布

weixin_34004576

最新推荐文章于 2024-01-03 16:05:36 发布

阅读量130

点赞数

文章标签：大数据人工智能

原文链接：https://juejin.im/post/5b0bc849f265da08ce6f0fe5

版权

大数据课程，一门看似很专业实际很复杂的学科，备受追捧。因为大数据的就业前景真的很诱惑人，单单是就业薪资就能让人趋之若鹜。今天给大家分享的技术知识是大数据入门课程之Hadoop和spark的性能比较。

曾经看过一个非常有趣的比喻，Hadoop是一家大型包工队，可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce)，但是速度比较慢。

　　Spark是另一家包工队，虽然成立得晚一些，但是他们搬砖很快很灵活，可以实时交互地盖房子，比Hadoop快得多。

　　Hadoop开始升级，指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS，Cassandra,S3，HBase)，还允许不同专家如YARN/ MESOS对人员和任务进行调度。

当然，他们两家并不是水火不容。Spark经常和Hadoop团队合作，这让问题变得更加复杂。不管怎么说，Spark和Hadoop都是两个独立的包工队，都有着各自的优缺点和特定的业务用例。

Hadoop和spark的性能比较

　　Spark在内存中运行速度比Hadoop快100倍，在磁盘上运行速度快10倍。众所周知，Spark在数量只有十分之一的机器上，对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外，Spark在机器学习应用中的速度同样更快，例如Naive Bayes和k-means。

　　由处理速度衡量的Spark性能之所以比Hadoop更优，原因如下：

　　1、每次运行MapReduce任务时，Spark都不会受到输入输出的限制。事实证明，应用程序的速度要快得多。

　　2、Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接，这意味着在该级别不会发生性能调整。

但是，如果Spark与其他共享服务在YARN上运行，则性能可能会降低并导致RAM开销内存泄漏。出于这个原因，如果用户有批处理的诉求，Hadoop被认为是更高效的系统。

文章写到这也该结束了，如果你对这篇文章感到意犹未尽，对大数据感兴趣，欢迎大家一起交流学习。

最近我这里整理了一套大数据的学习资料和视频，想学习大数据方面的技术，大家可以加我的微信：Lxiao_28 备注“领取资料” 免费分享给大家学习哦~

weixin_34004576

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据入门课程：Hadoop和spark的性能比较

大数据课程，一门看似很专业实际很复杂的学科，备受追捧。因为大数据的就业前景真的很诱惑人，单单是就业薪资就能让人趋之若鹜。今天给大家分享的技术知识是大数据入门课程之Hadoop和spark的性能比较。曾经看过一个非常有趣的比喻，Hadoop是一家大型包工队，可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce)，但是速度比较慢。　　Spark是另一家包工队，虽然成立得晚一些，但是他们搬砖...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。