大数据Hadoop、spark笔记第四章：流计算

唐风绸繆

已于 2024-04-12 22:56:58 修改

阅读量339

点赞数 4

分类专栏： Hadoop+Spark 文章标签： spark

于 2024-04-08 12:34:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45738761/article/details/137503993

版权

Hadoop+Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

大数据Hadoop、spark笔记（一）-CSDN博客

第二章 spark设计与原理-CSDN博客

第三章：Spqrk应用基础-CSDN博客

第四章：流计算-CSDN博客

数据可以分为两种：静态数据和动态数据（流数据）

流数据特点：

数据来源众多，随时变化，快速持续到达，关注数据的整体价值不过分关注个体价值，数据价值随时间流逝

批量计算：充裕的时间处理静态数据，如hadoop。

将数据存储在数据库，用户主动发出查询，得到结果

流计算：要求在秒级甚至更短的时间完成计算

数据实时采集，数据实时计算，结果主动推送给用户，数据可能不需要存储

数据实时采集：

数据实时计算：

数据经流处理系统处理后的数据，可以流出给下一个环节继续处理，也可以把相关结果处理完以后就丢弃掉，或者存储到相关的存储系统当中去

开源流计算框架storm

设计思想

streams：storm将流数据描述成一个无限的tuple序列。

spout：

bolt：

每个bolt可以包含多个task（任务），每个task可以在不同的机器节点并行处理

topology：相当于hadoop里的job

topology中每个组件都是并行运行的

stream grouping：

图中每个圆圈是一个task。

spout中产出tuple后应当以何种规则分发给boltA和blotB--- stream grouping

分发规则：

ShuffleGrouping：随机分组，保证每个bolt收到的task数量大致相等

FieldsGrouping：按字段分组，保证相同字段的tuple分配到同一个task

AllGrouping：每个task收到所有tuple

GlobalGrouping：所有tuple发到同一个task

DirectGrouping：直接分组，指定摸个task执行tuple

storm工作模式：

nimbus和supervisor不直接通信，而是通过zookeeper。如果nimbus或supervisor发生故障，可以通过zookeeper保存的信息快速恢复工作

worker进程和topology是1-n的关系

每个worker进程，运行着多个executor线程（白色）

每个executor线程运行同一个组件的若干个task。

实际的数据处理有task完成

storm工作流程

所有Topology任务的提交必须在Storm客户端节点上进行。

Nimbus节点首先将Topology分片成一个个Task，分配给相应的Supervisor,将分配信息提交到Zookeeper集群上。

Supervisor会去Zookeeper上认领自己的Task

另外两种流计算框架：spark streaming和samaza

spark streaming：

spark是面向批处理的框架，将实时输入数据以时间片为单位拆分（拆分后称为Dstream---离散化数据流）并处理（RDD操作），以此实现流数据的处理

优点：1、容错性强于storm

2、兼容批量和实时数据处理的算法，方便了需要历史数据和实时数据联合分析的应用场合

缺点：1、离散化数据流终究不是真正的数据流，响应速度慢与storm

samaza：

对于大量流数据的处理能力强于另外两种框架

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大数据Hadoop、spark笔记第四章：流计算

spark是面向批处理的框架，将实时输入数据以时间片为单位拆分（拆分后称为Dstream---离散化数据流）并处理（RDD操作），以此实现流数据的处理。数据经流处理系统处理后的数据，可以流出给下一个环节继续处理，也可以把相关结果处理完以后就丢弃掉，或者存储到相关的存储系统当中去。数据来源众多，随时变化，快速持续到达，关注数据的整体价值不过分关注个体价值，数据价值随时间流逝。数据实时采集，数据实时计算，结果主动推送给用户，数据可能不需要存储。将数据存储在数据库，用户主动发出查询，得到结果。
复制链接

扫一扫

专栏目录

唐风绸繆 CSDN认证博客专家 CSDN认证企业博客

码龄5年

145: 原创

50万+: 周排名

4万+: 总排名

7万+: 访问

: 等级

2803: 积分

1547: 粉丝

1341: 获赞

33: 评论

1195: 收藏

私信

关注

热门文章

分类专栏

最新评论

信息安全笔记第三章网络防御手段
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
信息安全笔记第一章信息安全概述
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
基于流标特征的DdoS攻击检测技术
dj1213777: 你好，对这个试验很感兴趣，能否回复一下私信
数字图像处理第二章空域增强技术
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数字图像处理第六章形态学图像处理
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。