大数据计算框架Hadoop, Spark和MPI

最新推荐文章于 2024-08-08 10:34:27 发布

Claire_Bear7

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量1.4w

点赞数 2

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/claire7/article/details/46848757

版权

本文概述了大数据计算框架Hadoop、Spark和MPI的特点及应用场景。Hadoop通过HDFS提供高可靠存储，YARN承载各种计算框架，但存在延迟高的局限。Spark作为新兴引擎，以分布式内存抽象RDD为核心，支持快速迭代计算，弥补了Hadoop的不足。MPI则主要用于高性能计算中的并行通信。

摘要由CSDN通过智能技术生成

今天做题，其中一道是

请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。

一直想对这些大数据计算框架总结一下，只可惜太懒，一直拖着。今天就借这个机会好好学习一下。

名称	发起者	语言	简介	特点	适用场景
Hadoop	Yahoo工程师，Apache基金会	Java	MapReduce分布式计算框架+HDFS分布式文件系统（GFS）+HBase数据存储系统(BigTable) 数据分布式存储在磁盘各个节点，计算时各个节点读取存储在自己节点的数据进行处理	高可靠（Hadoop按位存储）高扩展（在可用的计算机集群间分配数据并完成计算任务，可以方便的扩展到数千个节点上）高效（能在节点间动态的移动数据，保证节点的平衡）计算向存储迁移高容错，通过数据备份应对节点失效	离线大批量数据处理；不需要多次迭代
Spark	UC Berkley AMP Lab，Apache基金会	Scala	基于内存计算的并行计算框架使用内存来存储数据，RDD(弹性分布式数据集) 用户可以指定存储策略，当内存不够的时候可以放到磁盘上	轻量级快速处理（减少磁盘IO，用RDD在内存中存储数据，需要持久化时才到磁盘）