使用Clojure DSL来写storm

最新推荐文章于 2024-04-23 18:52:22 发布

葑岚

最新推荐文章于 2024-04-23 18:52:22 发布

阅读量4.8k

点赞数 1

分类专栏： clojure/lisp twitter storm 文章标签： clojure stream vector java callback 集群

twitter storm 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

clojure/lisp

10 篇文章 0 订阅

订阅专栏

storm 提供一套Clojure DSL来定义spouts，bolts，和topologies。因为Clojure DSL可以调用所有暴露在外的java api，所以如果你是一个
clojure开发者，你不用接触java代码就可以编写storm topologys。定义Clojure DSL的代码在backtype.storm.clojure 命名空间下.
本文概述了使用Clojure DSL的所有部分，包括：
1.定义 topologies
2. defbolt
3. defspout
4. 在本地模式或集群模式运行topologies
5. 测试topologies

定义topologies
通过使用topology方法来定义一个topology。topology方法接受2个参数：一个value为spout-spec类型的map和一个value为bolt-spec类型的map。
这些spout-spec和bolt-spec设置了这个topology的输入，并行度等
我们来看一个storm-starter项目中的例子：
(topology
{"1" (spout-spec sentence-spout)
"2" (spout-spec (sentence-spout-parameterized
                   ["the cat jumped over the door"
                    "greetings from a faraway land"])
                   :p 2)}
{"3" (bolt-spec {"1" :shuffle "2" :shuffle}
                 split-sentence
                 :p 5)
"4" (bolt-spec {"3" ["word"]}
                 word-count
                 :p 6)})
maps中的spout-spec和bolt-spec是一个id到对应spec的映射，这个id必须在整个map里面是唯一的，和使用java类似，这个id被用于
定义所有bolt的输入是哪些。

spout-spec

spout-spec的参数包括一个spout的实例（实现 IRichSpout）和可选的关键字参数。目前存在的唯一的选择是:p选项，这个选项指定了spout的并行度，如果
不设置这个选项，spout将以一个线程运行。

bolt-spec

bolt-spec的参数包括bolt的输入说明，bolt实例（实现IRichBolt），和可选的关键字参数
输入参数是一个stream ids到stream groupings的映射，stream id可以有两种形式：
1：[==component id== ==stream id==]: 为组件指定特定的流id
2：==component id==: 对一个组件使用默认流
对于流的分组必须是下面几种中的一个：
1： :shuffle：随机发给其它task
2：存放字段的vector，如["id" "name"]：相同field值的tuple会去同一个task
3：:global：全局分组，分配给id值最低的那个task
4： :all：广播发送，所有的Bolts都会收到每一个tuple
5： :direct 直接分组,消息的发送者指定由消息接收者的哪个task处理这个消息
https://github.com/nathanmarz/storm/wiki/Concepts 有更多关于stream groupings的介绍，下面的例子展示了不同类型的输入参数的声明。
{["2" "1"] :shuffle
"3" ["field1" "field2"]
["4" "2"] :global}
这个输入声明了3中流，为组件“2”定制了“1”的stream，并且使用shuffle grouping，为组件“3”定制了默认流，使用fields grouping，为
组件“4”定制了“2”的stream，使用global
和spout-spec一样bolt-spec提供:p来指定bolt的并行度。

shell-bolt-spec

shell-bolt-spec 用于为non-JVM language定义bolts。它接收输入，输出配置，指令，以及实现bolt的文件的名字，另外支持和bolt-spec同样的参数
这里有一个shell-bolt-spec的例子：
(shell-bolt-spec {"1" :shuffle "2" ["id"]}
                 "python"
                 "mybolt.py"
                 ["outfield1" "outfield2"]
                 :p 25)
更详细的语法描述看https://github.com/nathanmarz/storm/wiki/Using-non-JVM-languages-with-Storm

defbolt

defbolt用于使用Clojure定义一个bolt，bolt必须是serializable的，这也是为什么要通过实现IRichBolt来实例化一个bolt，
（闭包不能实现序列化），defbolt通过一些良好的语法来实现这些特性，而不仅仅是实现某个java接口。

另外defbolt支持参数化的bilts和维护状态在一个bolt的实现里。同时也提供了快捷方式去定义bolts而不需要额外的方法。
defbolt的定义如下所示：
(defbolt name output-declaration *option-map & impl)
省略option的map相当与使用一个{:prepare false}.

Simple bolts

我们从最简单的开始，这里有一个将一个句子的tuple切分成单词的tuple的bolt
(defbolt split-sentence ["word"] [tuple collector]
(let [words (.split (.getString tuple 0) " ")]
    (doseq [w words]
      (emit-bolt! collector [w] :anchor tuple))
    (ack! collector tuple)
    ))

该例子省略了option map，所以是一个non-prepared bolt。这个DSL简单的实现了IRichBolt的execute方法。这个实现接收2个参数
一个是tuple，一个是OutputCollection，接下来是execute的方法体。DSL会自动映射参数类型，所以不必担心怎么与java互操作。
这个实现绑定dplit-sentence到一个真是的IRichBolt，你可以在一个topologies里面使用它，像这样：
(bolt-spec {"1" :shuffle}
split-sentence
:p 5)

Parameterized bolts
很多时候我们希望使用其它的参数，例如，我们想实现一个在接收的参数后面追加后缀的bolt，我们可以通过使defbolt包含:params
option在option map，像这样：
(defbolt suffix-appender ["word"] {:params [suffix]}
[tuple collector]
(emit-bolt! collector [(str (.getString tuple 0) suffix)] :anchor tuple)
)
不同于上面的例子，suffix-appender会返回一个IRichBolt而不是实现一个IRichBolt。这是因为指定一个:params在option map。
所以要想在topology中使用suffix-appender，需要这样写：
(bolt-spec {"1" :shuffle}
(suffix-appender "-suffix")
:p 10)

Prepared bolts

更综合的bolts，可以用来做joins和流聚合，这个bolt需要储藏状态。你可以通过创建一个option map为{:prepare true}的bolt来创建它。加入我们做一个
单词统计的例子：
(defbolt word-count ["word" "count"] {:prepare true}
[conf context collector]
(let [counts (atom {})]
    (bolt
     (execute [tuple]
       (let [word (.getString tuple 0)]
         (swap! counts (partial merge-with +) {word 1})
         (emit-bolt! collector [word (@counts word)] :anchor tuple)
         (ack! collector tuple)
         )))))

prepared bolt的实现是一个作为topology配置的方法。TopologyContext，和OutputCollector，并且返回一个IBot的实例。这个设计要求
有一个execute和cleanup的实现。
在这个例子中，单词统计在叫做counts的map中存储。这个叫做bolt的宏用来创建一个IBot实例。bolt宏是一个简洁的实现这个接口的方式，
并且它自动映射方法中所有的参数。这个bolt实现execute方法，用来更新统计值和发射一个新的word count。
需要注意的是execute方法在prepared bolts中作为输入tuple是因为OutputCollector已经存在在闭包方法里
（simple bolts这个collector是作为第二个参数传进excute方法的）

Output declarations

Clojure DSL 有一个简明的语法来说明bolt的输出。这个简单的做法是定义一个stream id到stream spec的map
例如：
{"1" ["field1" "field2"]
"2" (direct-stream ["f1" "f2" "f3"])
"3" ["f1"]}

这个stream id是一个字符串，而stream spec则是一个字段或者使用direct-stream的字段的vector。
direct stream表示这个stream是一个直接分组。

如果这个bolt只有一个输出流，你可以通过一个vector定义一个默认的stream来代替定义一个map。例如：
["word" "count"]
是为默认的stream id使用["word" "count"]配置输出

Emitting，acking，and failing

相比直接使用java方法OutputCollector，Clojure的DSL提供更友善的方法来使用OutputCollector:
emit-bolt!, emit-direct-bolt!, ack!,和fail！
1.emit-bolt：接收OutputCollector的参数，会emit一个values，并提供关键字:anchor和:stream，:anchor是一个单独的tuple或者是一个
tuple的list，:stream是emit的stream的id。如果忽略这个关键字参数则会给默认stream发射一个不可靠的tuple。
2.emit-direct-bolt!:作为OutputCollector的参数，task id用于发送tuple，发射values，也有关键字参数:anchor和:stream。
该方法只能以直接分组的形式发送stream。
3.ack!：接收OutputCollector的参数，维护tuple的可靠性。
4.fail!：接收OutputCollector的参数，tuple是否失败

defspout

defspout用来使用Clojure定义spout。和bolt一样，spout也必须是serializable的，所以不能仅仅实现IRichSpout。defspout提供了
比直接实现javaapi更良好的方法来实现。
defspout的格式：
(defspout name output-declaration *option-map & impl)
如果忽略option map，它的默认值为{:prepare true}。声明输出的语法和defbolt一样。
这里有一个原子storm-starter的defspout的实现：
(defspout sentence-spout ["sentence"]
[conf context collector]
(let [sentences ["a little brown dog"
                   "the man petted the dog"
                   "four score and seven years ago"
                   "an apple a day keeps the doctor away"]]
    (spout
     (nextTuple []
       (Thread/sleep 100)
       (emit-spout! collector [(rand-nth sentences)])
       )
     (ack [id]
        ;; You only need to define this method for reliable spouts
        ;; (such as one that reads off of a queue like Kestrel)
        ;; This is an unreliable spout, so it does nothing here
        ))))
TopologyContext, 和SpoutOutputCollector作为实现topology输入的配置。这个实现返回一个ISpout对象。nextTuple方法在sentences发射一个随机的
句子
这个spout是不可靠的，所以ack和fail方法永远不会被调用。一个可靠的spout在发射tuple的时候需要加上message id，这样ack和fail
将会在tuple完成或者失败的时候分别被调用。
emit-spout!需要一个参数SpoutOutputCollector，并且发射新的tuple，并且接收关键字参数:stream和:id.:stream指定这个流将被发射到哪，
:id指定了这个消息的来源id（用于ack或者fail的时候进行callback），忽略这些参数，将会发射一个使用默认流分组的不可靠的tuple
这里还有一个emit-direct-spout!方法来发射一个直接分组的tuple，并且需要一个额外的参数来作为第二个参数的task id来发射tuple。
spout可以像bolt一样被参数化，在这种情况下，符号取决于一个方法返回IRichSpout，而不是IRichDpout本身。
你可以声明一个只定义了nextTuple方法的不完全的spout。
这里有一个运行时发射随机句子的例子。
(defspout sentence-spout-parameterized ["word"] {:params [sentences] :prepare false}
[collector]
(Thread/sleep 500)
(emit-spout! collector [(rand-nth sentences)]))

下面的例子是说明如何在spout-spec中使用这个spout
(spout-spec (sentence-spout-parameterized
                   ["the cat jumped over the door"
                    "greetings from a faraway land"])
            :p 2)

在本地模式或集群模式运行topology

这里是全部的ClojureDSL。远程模式或者本地模式提交topology，只需要使用StormSubmitter或者LocalCluster类，就像java一样。
如果要创建一个topology的配置，可以简单的使用backtype.storm.config，该命名空间下有默认的常量配置。
这些配置和在Config类下面的静态配置是一样的，除了横杠用下划线表示。例如这里有一个topology的配置配置worker的数量为15，并且
topology为debug模式:
{TOPOLOGY-DEBUG true
TOPOLOGY-WORKERS 15}

葑岚

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
使用Clojure DSL来写storm

storm 提供一套Clojure DSL来定义spouts，bolts，和topologies。因为Clojure DSL可以调用所有暴露在外的java api，所以如果你是一个clojure开发者，你不用接触java代码就可以编写storm topologys。定义Clojure DSL的代码在backtype.storm.clojure 命名空间下.本文概述了使用Clojure DS
复制链接

扫一扫