常用大数据框架对比

本文介绍了大数据处理中的三种框架类型:仅批处理的Apache Hadoop、仅流处理的Apache Storm和Apache Samza,以及混合处理的Apache Spark和Apache Flink。批处理框架如Hadoop的MapReduce主要处理静态大数据,而流处理框架实时处理连续数据流,提供近实时的分析。混合框架如Spark和Flink兼顾批处理和流处理能力,简化了不同处理需求。
摘要由CSDN通过智能技术生成

最近看到一篇写大数据框架的文章,写的非常好,也根据自己的经验做一些总结吧。大数据框架的选型对刚接触分布式运算的人来说确实有点迷茫,希望这篇文章可以对大家有所帮助。

 

简介:

大数据是收集、整理、处理大量大规模数据集,并从中获得见解所需的非传统战略的技术统称,常用场景:推荐系统,根据用户行为进行相应推荐。资讯、商品等。

分类:

     仅批处理框架    Apache Hadoop

     仅流处理框架   Apache Storm、Apache Samza    

     混合框架       Apache Spark、Apache Flink 

 

名称 特点 优势 局限 处理过程
Hadoop 专用于批处理系统 新版Hadoop包含多个组件,通过配合使用可处理批数据(HDFS、YARN、MapReduce),另外磁盘空间通常是服务器上最丰富的资源,因此可以处理非常海量的数据。 这种方式严重依赖于持久化存储,需要多次进行读写操作,因此速度相对较慢

1.从HDFS文件系

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值