目录
一、storm简介
storm是个实时的、分布式的、高容错、高可靠的计算系统。
它是由twitter开源在github上的实时大数据计算框架,2013年进入apache社区孵化,2014年成为apache的顶级金牌项目
二、storm架构
●Nimbus:资源调度、任务分配、接收jar包
●Supervisor:接收nimbus分配的任务 、 启动/停止自己管理的worker进程(当前supervisor上worker数量由配置文件设定)
●Worker:运行具体处理运算组件的进程(每个Worker对应执行一个Topology的子集)、worker任务类型,即spout任务、bolt任务两种、启动executor(executor即worker JVM进程中的一个java线程,一般默认每个executor负责执行一个task任务)
●Zookeeper:存放任务信息。用来协调Nimbus和Supervisor,如果Supervisor因故障出现问题而无法运行Topology,Nimbus会第一时间感知到,并重新分配Topology到其它可用的Supervisor上运行。
三、集群搭建及启动
下载压缩包http://storm.apache.org/downloads.html
上传到服务器,然后解压。
环境准备:
Java 6+
Python 2.6.6+
zookeeper搭建完成