大数据计算框架Hadoop, Spark和MPI

本文概述了大数据计算框架Hadoop、Spark和MPI的特点及应用场景。Hadoop通过HDFS提供高可靠存储,YARN承载各种计算框架,但存在延迟高的局限。Spark作为新兴引擎,以分布式内存抽象RDD为核心,支持快速迭代计算,弥补了Hadoop的不足。MPI则主要用于高性能计算中的并行通信。
摘要由CSDN通过智能技术生成

今天做题,其中一道是

请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。

一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着。今天就借这个机会好好学习一下。

一张表

名称 发起者 语言 简介 特点 适用场景
Hadoop Yahoo工程师,Apache基金会 Java MapReduce分布式计算框架+HDFS分布式文件系统(GFS)+HBase数据存储系统(BigTable)
数据分布式存储在磁盘各个节点,计算时各个节点读取存储在自己节点的数据进行处理
高可靠(Hadoop按位存储)
高扩展(在可用的计算机集群间分配数据并完成计算任务,可以方便的扩展到数千个节点上)
高效(能在节点间动态的移动数据,保证节点的平衡)计算向存储迁移
高容错,通过数据备份应对节点失效
离线大批量数据处理;
不需要多次迭代
Spark UC Berkley AMP Lab,Apache基金会 Scala 基于内存计算的并行计算框架
使用内存来存储数据,RDD(弹性分布式数据集)
用户可以指定存储策略,当内存不够的时候可以放到磁盘上
轻量级快速处理(减少磁盘IO,用RDD在内存中存储数据,需要持久化时才到磁盘)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值