Strom集群搭建
1. 说明
Storm0.9以前的版本依靠0MQ传输数据,但是0mq对操作系统的依赖程度高,不要配置,容易出现兼容性问题。0.9以后的版本采用jetty做数据传输,所以不需要在安装0MQ
2. 准备
Jdk strom的部分代码用java编写,需要依赖jdk,我用的是1.7
Python storm依赖python,如果系统自带的python为2.6以下版本需要升级,可以直接在终端输入:python查看系统自带python的版本
Zookeeper strom使用zookeeper做服务协调,zookeeper安装参考:http://blog.csdn.net/mapengbo521521/article/details/41777721
3. Python的安装
在Linux下安装Python的操作相当简单,按如下步骤操作即可:
解压:
tar zxvf Python-3.2.2.tgz
安装:
cd Python-3.2.2
./configure
make
make install
此时输入”python”命令,仍然显示是旧版本的,这就需要创建软连接:
cd /usr/bin
rm -rf python
ln -s /home/python/Python-3.2.2/python python
再次数据“python”可以看到已经是新版本的python
python
4. 安装Storm
下载地址:http://mirrors.cnnic.cn/apache/storm/apache-storm-0.9.4/apache-storm-0.9.4.tar.gz
解压
tar -zxf apache-storm-0.9.4.tar.gz
修改配置
cd /home/hadoop/apache-storm-0.9.4/conf
vi storm.yaml
添加以下内容(蓝色字体内容):
##集群使用的Zookeeper集群地址
storm.zookeeper.servers:
- "hadoop1"
- "hadoop2"
- "hadoop3"
storm.zookeeper.port: 2181
##集群的Nimbus机器的地址
nimbus.host: "hadoop1"
##Nimbus和Supervisor迚程用于存储少量状态,如jars、 confs等的本地磁盘目录,需要提前创建该目录并给以足够的访问权限
storm.local.dir: "/home/hadoop/storm-0.9.4/data"
##对于每个Supervisor工作节点,需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的端口用于接收消息,该配置选项即用于定义哪些端口是可被worker使用。默认情况下,每个节点上可运行4个workers,分别在6700、 6701、 6702和6703端口上。
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703
创建数据目录
cd /home/hadoop/storm-0.9.4/
mkdir data
scp -rp storm-0.9.4/ root@hadoop2:/home/hadoop/
scp -rp storm-0.9.4/ root@hadoop3:/home/hadoop/
##编辑环境变量##
[grid@hadoop4 ~]$ vim /etc/profile
export STORM_HOME=/home/hadoop/storm-0.9.4
export PATH=$PATH:$STORM_HOME/bin
source /etc/profile
再配置从节点环境变量
##启动Storm(确保zookeeper已经启动)##
storm nimbus & ##在主节点上运行Nimbus后台程序
storm supervisor & ##在工作节点上运行Supervisor后台程序
storm supervisor &
storm ui & ##在主节点上运行UI程序,启动后可以在浏览器上输入http://主节点的ip:port(默认8080端口)
storm logviewer & ##在主节点上运行LogViewer程序,启动后在UI上通过点击相应的Woker来查看对应的工作日志
[root@hadoop1 ]$ jps
2959 QuorumPeerMain
3310 logviewer
3414 Jps
3228 nimbus
3289 core
[root@hadoop2 ~]$ jps
2907 QuorumPeerMain
3215 Jps
3154 supervisor
[root@hadoop3 ~]$ jps
3248 Jps
2935 QuorumPeerMain
3186 supervisor
前面的启动方式不能作为后台服务启动,启动Storm所有后台服务:
> bin/storm nimbus >/dev/null 2>&1 &
> bin/storm supervisor>/dev/null 2>&1 &
> bin/storm ui >/dev/null 2>&1 &
> bin/storm logviewer > /dev/null 2>&1 &
访问:http://hadoop1:8080
5. 测试
说明:需要引入/home/hadoop/storm-0.9.4/lib下的jar
1. Spout消息发送
package test.storm;
import java.util.Map;
import java.util.Random;
import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichSpout;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
/**
* Spout起到和外界沟通的作用,他可以从一个数据库中按照某种规则取数据,也可以从分布式队列中取任务
*
* @author Administrator
*
*/
@SuppressWarnings("serial")
publicclass SimpleSpoutextends BaseRichSpout{
//用来发射数据的工具类
private SpoutOutputCollectorcollector;
privatestatic String[]info =new String[]{
"comaple\t,12424,44w46,654,12424,44w46,654,",
"lisi\t,435435,6537,12424,44w46,654,",
"lipeng\t,45735,6757,12424,44w46,654,",
"hujintao\t,45735,6757,12424,44w46,654,",
"jiangmin\t,23545,6457,2455,7576,qr44453",
"beijing\t,435435,6537,12424,44w46,654,",
"xiaoming\t,46654,8579,w3675,85877,077998,",
"xiaozhang\t,9789,788,97978,656,345235,09889,",
"ceo\t,46654,8579,w3675,85877,077998,",
"cto\t,46654,8579,w3675,85877,077998,",
"zhansan\t,46654,8579,w3675,85877,077998,"};
Random random=new Random();
/**
* 初始化collector
*/
publicvoid open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
this.collector = collector;
}
/**
* 在SpoutTracker类中被调用,每调用一次就可以向storm集群中发射一条数据(一个tuple元组),该方法会被不停的调用
*/
@Override
publicvoid nextTuple() {
try {
String msg = info[random.nextInt(11)];
//调用发射方法
collector.emit(new Values(msg));
//模拟等待100ms
Thread.sleep(100);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
/**
* 定义字段id,该id在简单模式下没有用处,但在按照字段分组的模式下有很大的用处。
* 该declarer变量有很大作用,我们还可以调用declarer.declareStream();来定义stramId,该id可以用来定义更加复杂的流拓扑结构
*/
@Override
publicvoid declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("source"));//collector.emit(new Values(msg));参数要对应
}
}
2. Bolt消息处理程序
package test.storm;
import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;
/**
* 接收喷发节点(Spout)发送的数据进行简单的处理后,发射出去。
*
* @author Administrator
*
*/
@SuppressWarnings("serial")
publicclass SimpleBoltextends BaseBasicBolt {
publicvoid execute(Tuple input, BasicOutputCollector collector) {
try {
String msg = input.getString(0);
if (msg !=null){
//System.out.println("msg="+msg);
collector.emit(new Values(msg +"msg is processed!"));
}
} catch (Exception e) {
e.printStackTrace();
}
}
publicvoid declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("info"));
}
}
3. 程序入口main
package test.storm;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;
/**
* 定义了一个简单的topology,包括一个数据喷发节点spout和一个数据处理节点bolt。
*
* @author Administrator
*
*/
publicclass SimpleTopology {
publicstaticvoid main(String[] args) {
try {
//实例化TopologyBuilder类。
TopologyBuilder topologyBuilder =new TopologyBuilder();
//设置喷发节点并分配并发数,该并发数将会控制该对象在集群中的线程数。
topologyBuilder.setSpout("SimpleSpout",new SimpleSpout(), 1);
//设置数据处理节点并分配并发数。指定该节点接收喷发节点的策略为随机方式。
topologyBuilder.setBolt("SimpleBolt",new SimpleBolt(), 3).shuffleGrouping("SimpleSpout");
Config config = new Config();
config.setDebug(true);
if (args !=null && args.length > 0) {
config.setNumWorkers(1);
StormSubmitter.submitTopology(args[0], config, topologyBuilder.createTopology());
} else {
//这里是本地模式下运行的启动代码。
config.setMaxTaskParallelism(1);
LocalCluster cluster =new LocalCluster();
cluster.submitTopology("simple", config, topologyBuilder.createTopology());
}
} catch (Exception e) {
e.printStackTrace();
}
}
}