常用大数据框架对比

最新推荐文章于 2024-08-02 16:33:43 发布

PandaWzg

最新推荐文章于 2024-08-02 16:33:43 发布

阅读量3.1k

点赞数 1

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/qq_41070844/article/details/93741428

版权

本文介绍了大数据处理中的三种框架类型：仅批处理的Apache Hadoop、仅流处理的Apache Storm和Apache Samza，以及混合处理的Apache Spark和Apache Flink。批处理框架如Hadoop的MapReduce主要处理静态大数据，而流处理框架实时处理连续数据流，提供近实时的分析。混合框架如Spark和Flink兼顾批处理和流处理能力，简化了不同处理需求。

摘要由CSDN通过智能技术生成

最近看到一篇写大数据框架的文章，写的非常好，也根据自己的经验做一些总结吧。大数据框架的选型对刚接触分布式运算的人来说确实有点迷茫，希望这篇文章可以对大家有所帮助。

简介：

大数据是收集、整理、处理大量大规模数据集，并从中获得见解所需的非传统战略的技术统称，常用场景：推荐系统，根据用户行为进行相应推荐。资讯、商品等。

分类：

仅批处理框架 Apache Hadoop

仅流处理框架 Apache Storm、Apache Samza

混合框架 Apache Spark、Apache Flink

名称	特点	优势	局限	处理过程
Hadoop	专用于批处理系统	新版Hadoop包含多个组件，通过配合使用可处理批数据（HDFS、YARN、MapReduce），另外磁盘空间通常是服务器上最丰富的资源，因此可以处理非常海量的数据。	这种方式严重依赖于持久化存储，需要多次进行读写操作，因此速度相对较慢	1.从HDFS文件系