Hadoop和Saprk的异同

解决问题的层面不一样

首先Hadoop和Spark两者都是大数据框架,而Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,除了HDFS分布式文件系统以外,还提供MapReduce的数据处理功能;而Spark,则是一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

数据处理速度和适用场景

就数据处理速度而言,Spark因为其处理数据的方式不一样,会比MapReduce快上很多。
Hadoop中的MapReduce是分步对数据进行处理的,处理的数据和结果大部分情况下是静态的,批处理方式;
而Spark,它会在内存中以接近“实时”的时间完成所有的数据分析,可以适用于对流数据进行分析和多重数据处理的场景,如来自于工厂的传感器收集回来的数据流式处理,又或者是大部分机器学习算法的多重数据处理。

灾难恢复

两者都可以完成灾难恢复,Hadoop将每次处理后的数据都写入到HDFS系统磁盘上,对数据保存有多个副本,可实现灾难恢复;Spark的数据对象存储在数据集群中的弹性分布式数据集(RDD: Resilient Distributed Dataset)中,数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值