storm, kafka集成之本地开发、测试

转自:http://blog.csdn.net/xeseo/article/details/18615761 有删改


A. 使用KafkaSpout

一个KafkaSpout只能去处理一个topic的内容,所以,它要求初始化时提供如下与topic相关信息:
  • Kafka集群中的Broker地址 (IP+Port)
有两种方法指定:
1. 使用静态地址,即直接给定Kafka集群中所有Broker信息
[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. GlobalPartitionInformation info = new GlobalPartitionInformation();  
  2. info.addPartition(0new Broker("10.1.110.24",9092));  
  3. info.addPartition(0new Broker("10.1.110.21",9092));  
  4. BrokerHosts brokerHosts = new StaticHosts(info);  

2. 从Zookeeper动态读取
[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. BrokerHosts brokerHosts = new ZkHosts("10.1.110.24:2181,10.1.110.22:2181");  
推荐使用这种方法,因为Kafka的Broker可能会动态的增减

  • topic名字
  • 当前spout的唯一标识Id (以下代称$spout_id)(应该是topic-ID)
  • zookeeper上用于存储当前处理到哪个Offset了 (以下代称$zk_root(Zookeeper中存储offset的ZNode))
  • 当前topic中数据如何解码
了解Kafka的应该知道,Kafka中当前处理到哪的Offset是由客户端自己管理的。所以,后面两个的目的,其实是在zookeeper上建立一个 $zk_root/$spout_id 的节点,其值是一个map,存放了当前Spout处理的Offset的信息。

在Topology中加入Spout的代码:
[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. String topic = "test";  
  2. String zkRoot = "kafkastorm";  
  3. String spoutId = "myKafka";  
  4.   
  5. SpoutConfig spoutConfig = new SpoutConfig(brokerHosts, topic, zkRoot, spoutId);  
  6. spoutConfig.scheme = new SchemeAsMultiScheme(new TestMessageScheme());  
  7.   
  8. TopologyBuilder builder = new TopologyBuilder();  
  9. builder.setSpout("spout"new KafkaSpout(spoutConfig), spoutNum);  

其中TestMessageScheme就是告诉KafkaSpout如何去解码数据,生成Storm内部传递数据

[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. public class TestMessageScheme implements Scheme {  
  2.   
  3.     private static final Logger LOGGER = LoggerFactory.getLogger(TestMessageScheme.class);  
  4.       
  5.     @Override  
  6.     public List<Object> deserialize(byte[] bytes) {  
  7.         try {  
  8.             String msg = new String(bytes, "UTF-8");  
  9.             return new Values(msg);  
  10.         } catch (InvalidProtocolBufferException e) {  
  11.             LOGGER.error("Cannot parse the provided message!");  
  12.         }  
  13.           
  14.         //TODO: what happend if returns null?  
  15.         return null;  
  16.     }  
  17.   
  18.     @Override  
  19.     public Fields getOutputFields() {  
  20.         return new Fields("msg");  
  21.     }  
  22.   
  23. }  
这个解码方式是与Producer端生成时,写入数据的编码方式配套的。这里我Producer端写入的是String的byte,所以这里也还原成String,定义输出为一个名叫"msg"的field。

后面就可以自己添加Bolt处理tuple中该field的数据了。


B. 使用TransactionalTridentKafkaSpout

TransactionalTridentKafkaSpout是为事务性的Trident而用的。用法与KafkaSpout有所不同。
[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. TridentKafkaConfig kafkaConfig = new TridentKafkaConfig(brokerHosts, topic, spoutId);  
  2. kafkaConfig.scheme = new SchemeAsMultiScheme(new TestMessageScheme());  
  3.   
  4. TransactionalTridentKafkaSpout kafkaSpout = new TransactionalTridentKafkaSpout(kafkaConfig);  
  5.   
  6. TridentTopology topology = new TridentTopology();  
  7. topology.newStream("test_str", kafkaSpout).shuffle().each(new Fields("msg"new PrintFunction());  

看到它并没有要求我们提供zkRoot,因为直接代码里面写死了…… -_-T
地址是 /transactional/<STREAM_NAME>/<Spout_Id>,在上面的例子中,就是  /transactional/test_str/myKafaka


C. 常见问题

本地模式无法保存Offset
KafkaSpout初始化时,会去取spoutConfig.zkServers 和 spoutConfig.zkPort 变量的值,而该值默认是空,那么它就会去取当前运行的Storm所配置的zookeeper地址和端口。 而本地运行的Storm,是一个临时的zookeeper实例,并不会真正持久化。所以,每次关闭后,数据就没了。
本地模式,可以显示指定一个持续运行的Zookeeper用于存储当前spout在kafka中消费数据的offset。
[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. spoutConfig.zkServers = new ArrayList<String>(){{  
  2.                 add("10.1.110.20");  
  3.                 add("10.1.110.21");  
  4.                 add("10.1.110.24");  
  5.             }};  
  6. spoutConfig.zkPort = 2181;  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值