Storm学习笔记

最新推荐文章于 2024-05-29 10:35:10 发布

如今我已剑指天涯

最新推荐文章于 2024-05-29 10:35:10 发布

阅读量4.5k

点赞数

分类专栏：分布式计算文章标签：大数据 storm 分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunpeng19960715/article/details/51659951

版权

第一章：Storm概述

1.Storm是一个分布式流式计算的结构，目前阿里巴巴（淘宝）的大数据主要采用了这种技术，以Strom为基础，封装、改进抽象出来一款自己的分布式计算模式。Storm有很多应用场景，如实时分析、在线机器学习、持续计算、分布式RPC、ETL等等。

2.Strom分布式计算结构称为topology(拓扑)，由stream(数据流),spout(数据流的生成者),和bolt(运算)组成。如果你学过hadoop的话，topo大致等同于hadoop中的Job。然而，对于topo来说，只要你没有取消部署和杀死进程，topo就会一直运行下去。

3.

stream的核心数据结构是tulpe。tuple是包含了一个或者多个键值对的列表。
spout代表了一个Storm Topology的主要数据入口，充当采集器的角色，连接到数据源，将数据转化成一个一个的tuple，将tuple作为数据流进行发射。
bolt是运算过程或者函数，将数据流作为输入，对数据实施某些运算或者操作，然后选择性地输出数据流。bolt可以订阅多个由spout或者其他bolt发射的数据流，这样就可以建立起数据流转换网络。

4.Storm有如下特性：

编程模型简单
可扩展
高可靠性
高容错性
支持多种编程语言
支持本地模式
高效
运维和部署简单
图形化监控

第二章：Storm初体验

1.Storm是apache下的项目，去Apache官网下载即可。Storm提供本地模式，允许用户将Topology提交到本地集群，所有的bolt、spout跑在一个进程内，能够很方便地对topo进行调试。

2.说一下Storm的本地集群：
Storm集群包含两类结点：主控节点（Master Node）和工作节点（Worker Node）;

(1)主控节点上运行着一个称为Nimbus的后台程序，它负责在storm集群上分发代码、分配任务并负责监控集群的运行状态；
(2)每个工作节点上运行着一个称为Supervisor的后台程序。Supervisor负责监听Nimbus分配给它执行的任务。每一个工作进程执行一个Topology的子集，一个运行中的Topo由分布在不同工作节点上的多个工作进程组成。

3.Nimbus和Supervisor节点之间的所有协调工作是通过Zookeeper集群来实现的。如下图所示：

4.此外Nimbus和Supervisor都是快速失败和无状态的，

最低0.47元/天解锁文章

如今我已剑指天涯

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Storm学习笔记

Storm学习笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。