Hadoop和Spark:兼容才是可靠的解决方案

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉大家,Hadoop和Spark这两者之间,谁也没有消灭谁,都好好地存在着。

那些一定要在Hadoop和Spark之间分隔孰优孰劣的人,其实忽视了很重要的一点就是,设计人员最初的初衷,其实是需要Hadoop和Spark实现在一个系统当中的协同运行,共同提供更高效的大数据处理解决方案。
 

Hadoop和Spark


Hadoop和Spark,兼容合作才是目前大数据处理的最佳解决方案。Hadoop和Spark各有所长,并且各自的长处并不互相重叠。

举个很明显的例子,Spark的优势在于实时数据计算,而Hadoop的优势在于离线数据计算,如果完全依靠Spark的实时计算,当数据规模增长到一定的量级的时候,Spark的系统也会扛不住,所以如果将Hadoop和Spark结合起来,Hadoop处理时效性要求不高的数据,而Spark处理时效性要求高的数据,两相结合才是更优化的选择。

再比如说,Spark没有文件管理功能,必须依靠于其他的分布式文件系统才能进行工作,而Hadoop的HDFS文件系统就能提供这样的帮助。Spark拿来和Hadoop做比较,本身是没有可比性的,Spark更倾向于是数据计算引擎,而非是完善的数据处理平台。

关于Hadoop和Spark,需要记住的一点就是,这两者之间,不是非此即彼的关系,不是说一方要成为另一方的替代者,而是两者彼此兼容,提供更强大的数据处理解决方案。Spark真正擅长的是处理流工作负载、交互式查询和基于机器的学习等,而Hadoop作为一个完备的大数据处理平台兼容Spark,也能实现各方面的性能提升。

在现阶段的趋势来看,Hadoop和Spark都在大数据领域内占有自己的地位,并且也各自在数据处理上发挥所长,作为技术人员,更应该思考的是,如何实现两者之间更好的兼容和性能的提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值