关闭

[置顶] Storm基本体系架构

标签: stormzookeeper架构大数据
2259人阅读 评论(4) 收藏 举报
分类:

Apache Storm 是由Twitter开源的分布式实时计算系统。Storm可以非常容易并且可靠的处理无限的数据流。对比Hadoop的批处理,Storm是一个实时的、分布式的、具备高容错的计算系统。Storm应用可以使用不同的编程语言来进行开发。


-Storm基本体系结构图-


Nimbus和Supervisor之间的通信依靠Zookeeper来完成,并且Nimbus进程和Supervisor都是快速失败和无状态的。所有的状态要么在Zookeeper里面,要么在本地磁盘上。这就意味着你可以用Kill -9 来杀死 Nimbus和Supervisor进程,然后在重启它们,它们可以继续工作,就像什么也没发生。这个设计使Storm具有非常高的稳定性。

核心概念

在Storm中有一些核心基本概念,包括Topology、Nimbus、Supervisor、Worker、Executor、Task、Spout、Bolt、Tuple、Stream、Stream分组(grouping)等。

Topology:  一个实时计算应用程序逻辑上被封装在Topology对象中,类似Hadoop中的作业。与作业不同的是,Topology会一直运行直到显式地杀死它。

Nimbus:     负责资源分配和任务调度,类似Hadoop中的JobTracker。

Supervisor:负责接受Nimbus分配的任务,启动和停止属于自己管理的Worker进程,类似Hadoop中的TaskTracker。

Worker:      运行具体处理组件逻辑的进程。

Executor:    Storm 0.8之后,Executor为Worker进程中的具体的物理线程,同一个Spout/Bolt的Task可能会共享一个物理线程,一个Executor中只能运行隶属于同一个Spout/Bolt的Task。

Task:          每一个Spout/Bolt具体要做的工作,也是各个节点之间进行分组的单位。

Spout:         在Topology中产生源数据流的组件。通常Spout获取数据源的数据,然后调用nextTuple函数,发射数据供Bolt消费。

Bolt:            在Topology中接受Spout的数据然后执行处理的组件,Bolt可以执行过滤,函数操作,合并,写数据库等任何操作。Bolt在接收到消息后会调用execute函数,用户可在其中执行自己想要的操作。

Tuple:         消息传递的单元。

Stream:       源源不断传递的Tuple组成了Stream。

Stream分组:即消息的分区(partition)方法。Storm中提供若干种实用的分组方式。包括Shuffle、Fields、All、Global、None、Direct、Local or shuffle等。




关于分区方式的内容,下期继续,敬请期待……

Storm的Stream分组方式详解

2
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:22115次
    • 积分:395
    • 等级:
    • 排名:千里之外
    • 原创:16篇
    • 转载:3篇
    • 译文:0篇
    • 评论:11条
    文章分类
    文章存档
    最新评论