Spark与Hadoop(MR)的比较

最新推荐文章于 2024-09-10 15:42:57 发布

m0_37651941

最新推荐文章于 2024-09-10 15:42:57 发布

阅读量151

点赞数

文章标签： hadoop spark mr

本文链接：https://blog.csdn.net/m0_37651941/article/details/130569381

版权

Spark的基本数据模型是弹性分布式数据集（Resilient Distributed Datasets），提供了比MapReduce丰富的模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图形计算算法。
Spark只有在shuffle的时候将数据写入磁盘，而Hadoop中多个MR作业之间的数据交互都要依赖于磁盘交互
Spark Task的启动时间快。Spark采用fork线程的方式，而Hadoop采用创建新的进程的方式。
Spark的缓存机制比HDFS的缓存机制高效。
Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘。
Hadoop MapReduce由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。所以Spark应运而生，Spark就是在传统的MapReduce 计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。