分布式流式计算框架Storm

 Storm用于实时处理,就好比 Hadoop 用于批处理。

        --> 离线计算:批量获取数据,批量传输数据,周期性比量计算数据,数据展示(Sqoop-->HDFS--> MR ---> HDFS)

            --- 代表技术:

                    -- Sqoop 批量导入数据

                    -- HDFS 批量存储数据

                    -- MapReduce 批量计算

                    -- Hive

        --> 流式计算:数据实时产生,数据实时传输,数据实时计算,实时展示(Flume ---> Kafka ---> 流式计算 ---> Redis)

            --- 代表技术:

                    -- Flume 实时获取数据

                    -- Kafka/metaq 实时数据存储

                    -- Storm/JStorm 实时数据计算

                    -- Redis 实时结果缓存,持久化存储(MySQL)

===> Storm 与 Hadoop 的区别

        --> 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目前市面上行的分布式计算框架有以下几种: 1. Apache Hadoop:Hadoop是一个开源的分布式计算框架,它基于Google的MapReduce算法和Google文件系统(GFS)的思想,用于处理大规模数据集的分布式计算。Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。 2. Apache Spark:Spark是一个快速、通用的分布式计算系统,它提供了高级API(如Spark SQL、Spark Streaming和MLlib)和用于分布式数据处理的底层引擎。Spark的特点是内存计算和迭代计算的支持,使其在处理大规模数据时具有较高的性能。 3. Apache Flink:Flink是一个开源的处理和批处理框架,它提供了高吞吐量、低延迟的数据处理能力。Flink支持事件时间处理、状态管理和容错机制,适用于实时数据处理和批处理任务。 4. Apache StormStorm是一个开源的分布式实时计算系统,它可以处理高速数据,并提供了容错、可扩展和可靠的数据处理能力。Storm的核心概念是(stream)和拓扑(topology),通过定义拓扑来描述数据的处理逻辑。 5. Apache Samza:Samza是一个开源的分布式处理框架,它基于Apache Kafka构建,提供了高吞吐量、低延迟的处理能力。Samza支持容错、状态管理和精确一次处理语义,适用于实时数据处理和计算。 这些分布式计算框架都具有不同的特点和适用场景,根据项目的需求和业务情况选择合适的框架进行分布式计算

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值