【Spark系列】：Spark为什么比Hadoop快

最新推荐文章于 2021-09-14 10:34:19 发布

hxcaifly

最新推荐文章于 2021-09-14 10:34:19 发布

阅读量5.1k

点赞数 13

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxcaifly/article/details/85557594

版权

本文探讨了Spark与Hadoop在大数据处理速度上的差异，指出Spark的快并非仅因内存计算，而是由于减少了冗余的HDFS读写、消除了冗余MapReduce阶段以及JVM优化。尽管Spark通常比Hadoop快3-4倍，但并非所有场景下都绝对快。

摘要由CSDN通过智能技术生成

1.前言

大数据工程师都喜欢拿Spark和Hadoop进行对比。一般的理解就是：Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。

果真如此吗？事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。

Spark SQL比Hadoop Hive快，是有一定条件的，而且不是Spark SQL的引擎一定比Hive的引擎快，相反，Hive的HQL引擎还比Spark SQL的引擎更快。

2.什么是内存计算技术？

我们说的内存计算技术是指将数据持久化至内存RAM中进行加工处理的技术。Spark并不支持将数据持久化至内存中，我们通常所说的是spark的数据缓存技术，如将RDD数据缓存至内存，但并没有实现持久化。缓存数据是可以擦除的，擦除后同样是需要我们重新计算的。Spark的数据处理是在内存中进行的，这话并没有错，其实当前的所有操作系统的数据处理都是在内存中进行的。所以，这内存计算并不是Spark的特性。

Spark是允许我们利用缓存技术和LRU算法缓存数据的。Spark的所有运算并不是全部都在内存中，当shuffle发生的时候，数据同样是需要写入磁盘的。所以，Spark并不是基于内存的技术，而是使用了缓存机制的技术。

3. 那Spark主要快在哪里呢？

Spark最引以为豪的就是官网介绍的经典案例。这个案例是逻辑回归机器学习算法ÿ

最低0.47元/天解锁文章

关注

13
点赞
踩
39

收藏

觉得还不错? 一键收藏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。