前沿技术Spark,Flink,Beam

本文探讨了MapReduce的不足,如开发复杂、运行速度慢和框架多样性问题。接着介绍了Spark的优势,如速度快、易用、通用,并能在多种平台上运行。对比了Hadoop和Spark的特点,强调了它们的互补性。接着提到了Flink作为开源流处理框架的特性,以及分布式计算框架Beam在大数据处理中的重要角色。文章涵盖了这三大框架的关键特性和应用场景。
摘要由CSDN通过智能技术生成

MapReduce的缺点:

1.开发

  wordcount程序复杂

  只支持map和reduce方法

  执行效率低下

  以作业连方式串起来执行

  打包

2.运行速度:

   map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大

   map任务和reduce任务以进程方式运行

  一定要求排序(其实有时候不需要)

  不适合迭代处理,交互式(数据挖掘)处理,流式处理

3.框架多样性:

   维护和学习成本大

Spark特点:

    速度快,使用方便,通用性,可以运行在hadoop,Hadoop, Mesos, Kubernetes, standalone, cloud

Hadoop生态系统和Spark生态系统:


BDAS:Berkeley Data Analytics Stack


Hadoop和Spark生态圈:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值