Storm基础

最新推荐文章于 2022-05-04 11:40:41 发布

chengqiuming

最新推荐文章于 2022-05-04 11:40:41 发布

阅读量364

点赞数

分类专栏： storm 文章标签： storm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengqiuming/article/details/78997153

版权

storm 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

一介绍

1 分布式、实时大数据处理系统，是流数据计算框架，高速攫取数据。

2 无状态的，通过Zookeeper管理分布式集群的状态。

3 可以执行各种数据，实时并行计算。

4 Hadoop的实时计算欠缺，storm没有持久化。

二 Hadoop和Storm比较

storm：实时计算，无状态，基于zk的主从模式，master（nimbus）+slaves（supervisors）。流处理每秒数万消息。topology运行直到user停掉或程序故障。分布式和容错。nimbus或supervisors宕机，重启后从stop地方继续，没影响。

hadoop:批处理，有状态，master（appmaster）+yarn子进程。hadoop的mr框架计算海量数据数分钟或数小时。mr按序执行，最终会执行结束。分布式和容错。如果mr停止，所有data丢失。

三 storm应用公司

Twitter、Navisite、Wego

四 Apache Storm优势

1 开源、友好、健壮，适用于大小公司。

2 容错、灵活、可靠、支持跨语言。

3 支持实时流计算。

4 快、强大的数据处理能力。

5 低延迟。

6 操作智能化。

7 确保数据在集群故障或者数据丢失时，至少处理一次。

五 Apache Storm架构图

六组件

1 Tuple：storm中的主要数据结构，有序元素列表。默认tuple支持所有数据类型。通常以逗号分隔进行建模并传递给storm集群。

2 Stream：无序的元组序列。

3 Spout：Stream的源头，从原生数据源接受数据。通常是Twitter api或者是kafka队列。ISpout是核心接口。

4 Bolts：逻辑处理单元。spout的输出进入bolt。Bolt处理并产生新Tuple。bolt可以执行聚合、连接、过滤以及和数据源和数据库。IBolt是Storm的核心接口。

七 topology

Spout和Bolt连接在一起就形成了topology。可以理解为有向图，顶点用来计算，边是数据流动。起始于spout，输出到一个或多个bolt，bolt是最小的数据处理逻辑，bolt的输出也可以是其他bolt的输入。

topology保持始终运行的状态。storm在给定的时间可以运行任意数量的topology。

八 Task

Task是运行着的spout或者bolt（运行时概念）。spout或bolt在运行时都可以有多个实例。运行在单独线程中。

九 Worker

工作进程，storm在所有的工作进程尽可能平均分配task。worker的角色在新task到达时进行监听、启动和停止。

十 Executor

执行线程。

十一 Nimbus

master，负责topology运行，分析topology，并收集task运行情况。分发task给可用的supervisor。

十二 supervisor

有着一个或多个工作进程，代理工作进程的task。工作进程会产生多个执行线程来运行task。使用内部消息分发系统进行nimbus和supervisors的通信。

十三参考

http://edu.51cto.com/center/course/lesson/index?id=141544

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Storm基础

一介绍1 分布式、实时大数据处理系统，是流数据计算框架，高速攫取数据。2 无状态的，通过Zookeeper管理分布式集群的状态。3 可以执行各种数据，实时并行计算。4 Hadoop的实时计算欠缺，storm没有持久化。二 Hadoop和Storm比较storm：实时计算，无状态，基于zk的主从模式，master（nimbus）+slaves（supervisors
复制链接

扫一扫

专栏目录

chengqiuming CSDN认证博客专家 CSDN认证企业博客

码龄8年

6005: 原创

2万+: 周排名

145万+: 总排名

1140万+: 访问

: 等级

12万+: 积分

3716: 粉丝

3504: 获赞

1163: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

C++关于线程栈尺寸实战
hhhhhhhhhhkkkkkkkkkk: 静态数据区算是另类的堆空间，效果上相当于在main函数执行前先申请(malloc)静态数据区的空间。不随函数的退出而释放，行为与堆空间相似，区别是不能手动释放，所以也算是堆空间。
颜色的 HSL 表示
小明: 博主的文章细节很到位，兼顾实用性和可操作性，内容和细节都很到位，期待博主持续带来更多好文
JVM 垃圾回收之复制算法
hcfee: 对啊，不标记怎么确定对象是不是存活呢？看到好几个博客都写不需要标记，搞不懂
伪随机生成器具体实现——线性同余法
Eric-Xuan: 所以这个最好是让seed_value < lcg_m 来保证随机性
省市区三级联动 el-select 组件前端实现
Keep___Promise: 报错了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。