storm从入门到放弃教程（3）--初运行Topologies （拓扑）

最新推荐文章于 2021-07-23 15:23:57 发布

weixin_33861800

最新推荐文章于 2021-07-23 15:23:57 发布

阅读量73

点赞数

原文链接：https://my.oschina.net/u/2342969/blog/878084

版权

2019独角兽企业重金招聘Python工程师标准>>>

概述

上一篇【基础概念详细介绍】博文连接：https://my.oschina.net/u/2342969/blog/874052

本文将对Topologies （拓扑）进行详细的解释，此博文需要有一定storm基础，如需了解基础，请阅读上一篇博文，其中将会包含内容如下:

TopologyBuilder
如何在生产集群运行一个拓扑
本地运行拓扑

主体

简单使用

TopologyBuilder为storm声明的拓扑暴露的java API，用于执行这个拓扑，在java中可以使用此类构建拓扑。最终，拓扑们会是 Thrift 构造，由于 Thrift 很复杂，TopologyBuilder可以大大的简化创建拓扑，

生产环境例子如下：

 // 创建TopologyBuilder
    TopologyBuilder builder = new TopologyBuilder();
    // 为拓扑定义一个spout(最后一个参数是指定并行数,非必填)
    builder.setSpout("1", new TestWordSpout(true), 5);
    builder.setSpout("2", new TestWordSpout(true), 3);
    // 为拓扑定义一个bolt(最后一个参数是指定并行数,非必填)
    builder.setBolt("3", new TestWordCounter(), 3)
            //为bolt定义流分组
            .fieldsGrouping("1", new Fields("word"))
            .fieldsGrouping("2", new Fields("word"));
    builder.setBolt("4", new TestGlobalCount())
            .globalGrouping("1");

    Map conf = new HashMap();//为拓扑定义配置
    conf.put(Config.TOPOLOGY_WORKERS, 4); //为拓扑配置工作进程数
    
    //提交拓扑
    StormSubmitter.submitTopology("mytopology", conf, builder.createTopology());

本地例子如下：

 // 创建TopologyBuilder
    TopologyBuilder builder = new TopologyBuilder();
    // 为拓扑定义一个spout(最后一个参数是指定并行数,非必填)
    builder.setSpout("1", new TestWordSpout(true), 5);
    builder.setSpout("2", new TestWordSpout(true), 3);
    // 为拓扑定义一个bolt(最后一个参数是指定并行数,非必填)
    builder.setBolt("3", new TestWordCounter(), 3)
            //为bolt定义流分组
            .fieldsGrouping("1", new Fields("word"))
            .fieldsGrouping("2", new Fields("word"));
    builder.setBolt("4", new TestGlobalCount())
            .globalGrouping("1");

    Map conf = new HashMap();//为拓扑定义配置
    conf.put(Config.TOPOLOGY_WORKERS, 4); //为拓扑配置工作进程数
    conf.put(Config.TOPOLOGY_DEBUG, true);// 打开DEBUG模式
    LocalCluster cluster = new LocalCluster();// 创建本地集群(new 这个类即可)
    //向本地集群提交拓扑
    cluster.submitTopology("mytopology", conf, builder.createTopology());
    //线程睡眠10秒
    Utils.sleep(10000);
    //关闭集群
    cluster.shutdown();

TopologyBuilder是使用setSpout和setBolt方法影响组件ID到组件，那些方法生成的对象可以被用于声明那些组件的输入。

在生产运行拓扑

部署步骤

在生产运行拓扑类似于在本地运行,以下说明一些步骤:

使用java编程的话, 用TopologyBuilder定义拓扑(参考上一节)

使用StormSubmitter类提交拓扑到集群,StormSubmitter提交拓扑需要拓扑、拓扑名称,拓扑的配置。例子如下：

Config conf = new Config();
conf.setNumWorkers(20);
conf.setMaxSpoutPending(5000);
StormSubmitter.submitTopology("mytopology", conf, topology);

将代码打包成jar，需要包含代码的依赖哟（除storm 依赖外，storm 加入了集群classpath中），如果使用的maven，可以使用这个插件--Maven Assembly Plugin，只需要在 pom.xml 添加如下依赖即可：
```
 <plugin>
    <artifactId>maven-assembly-plugin</artifactId>
    <configuration>
      <descriptorRefs>  
        <descriptorRef>jar-with-dependencies</descriptorRef>
      </descriptorRefs>
      <archive>
        <manifest>
          <mainClass>com.path.to.main.Class</mainClass>
        </manifest>
      </archive>
    </configuration>
  </plugin>
```
运行 mvn assembly:assembly 即可得到合适的jar包。在集群classpath中已经存在storm，请确保已经排除storm.jar。
使用storm客户端提交拓扑到集群，指定jar包路径，运行类名，任意参数。例子如下：
```
storm jar path/to/allmycode.jar org.me.MyTopology arg1 arg2 arg3
```
storm jar 命令可以提交拓扑到集群并且配置StormSubmitter类连接正确的集群，在上面例子中，上传后的allmycode.jar,storm jar 命令调用org.me.MyTopology中的main方法,将arg1,arg2,arg3三个参数传入main方法,

有时间将写一篇如何搭建storm开发环境, 里面会详细讲解如何通过此命令运行拓扑的.

常用配置

每个拓扑可以设置很多配置,所有的配置可以查看官方文档的Config类http://storm.apache.org/releases/1.1.0/javadocs/org/apache/storm/Config.html

以 TOPOLOGY 开头的配置属性可以被重写,其余的集群配置无法被重写,下面介绍几个拓扑常用设置：

Config.TOPOLOGY_WORKERS: 这个配置是设置工作进程数用于执行拓扑，比如设置25个进程数，集群中就会有25个java进程去执行所有的任务，如果一个拓扑中有150个并行任务，每个工作进程会有6个任务线程运行任务。
Config.TOPOLOGY_ACKER_EXECUTORS: 这个配置是设置检查者数量，有配置数量的执行器去跟踪元组树，直到一个spout元组被完全处理。检查者是storm可靠性的一个整体结构。如果次配置未设置，storm将会默认使用Config.TOPOLOGY_WORKERS的值，当它的值设置为0时，默认所有元组均被完全处理，失去了storm的可靠性。后续将会有专门的博客讲述storm的可靠性机制。请大家多多关注，收藏
Config.TOPOLOGY_MAX_SPOUT_PENDING: 这个配置是设置一个单一spout任务运行期间等待的最大spout数（一个元组被认定成功或者失败为一个期间），为了防止队列爆满，非常推荐设置此配置。
Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS: 这个配置是设置一个spout元组被认定为失败之前，完全处理完毕的时间。这个配合默认是30秒，这个默认配置可以满足大部分拓扑。
Config.TOPOLOGY_SERIALIZATIONS: 这个配置可以为storm注册更多的序列器，为元组自定义类型