flume自定义source

  我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!

一、新建java工程项目,在项目中添加flume的核心jar包:

flume-ng-configuration-1.7.0.jar

flume-ng-core-1.7.0.jar

flume-ng-sdk-1.7.0.jar

上面的jar包在flume解压包的lib目录下可以找到

二、自定义Source,我们自定义的消息需要继承PollableSource (轮训拉取)或者EventDrivenSource (事件驱动),两者的区别在于PollableSource是通过线程不断去调用process方法,主动拉取消息,而EventDrivenSource是需要触发一个调用机制,即被动等待。我们还需要实现Configurable接口,以便在项目中初始化某些配置用的,我定义的Source如下:

 

 
  1. package com.harderxin.flume.test;

  2.  
  3. import java.nio.charset.Charset;

  4. import java.util.HashMap;

  5. import java.util.Random;

  6.  
  7. import org.apache.flume.Context;

  8. import org.apache.flume.EventDeliveryException;

  9. import org.apache.flume.PollableSource;

  10. import org.apache.flume.conf.Configurable;

  11. import org.apache.flume.event.EventBuilder;

  12. import org.apache.flume.source.AbstractSource;

  13.  
  14. public class MySource extends AbstractSource implements Configurable, PollableSource {

  15.  
  16. @Override

  17. public long getBackOffSleepIncrement() {

  18. return 0;

  19. }

  20.  
  21. @Override

  22. public long getMaxBackOffSleepInterval() {

  23. return 0;

  24. }

  25.  
  26. @Override

  27. public Status process() throws EventDeliveryException {

  28. Random random = new Random();

  29. int randomNum = random.nextInt(100);

  30. String text = "Hello World :" + random.nextInt(100);

  31. HashMap<String, String> header = new HashMap<String, String>();

  32. header.put("id", Integer.toString(randomNum));

  33. this.getChannelProcessor()

  34. .processEvent(EventBuilder.withBody(text, Charset.forName("UTF-8"), header));

  35.  
  36. return Status.READY;

  37. }

  38.  
  39. @Override

  40. public void configure(Context arg0) {

  41.  
  42. }

  43.  
  44. }


我自定义的Source比较简单,就是实现了PollableSource,然后在process方法中写我们的逻辑,输出Hello World,并发送给Channel,Source的主要目的就是将数据发送到Channel,到此Source的简单事情就做完了。

 

configure方法主要是放置一些配置信息,进行初始化一次就可以了,比如我们有些项目需要加载properties、数据库的连接等等

process方法会由PollingRunner线程去不断的调用执行,不理解原理的可以看第二篇文章,执行完后通过getChannelProcess的processEvent方法将我们的数据转换为flume的Event发送到Channel,这个过程在flume启动后会不断去执行。

三、将我们编写的MySource类打成jar包,例如:test.jar,里面依赖的jar包可以不用打包,如果有配置文件,也可以不用打包,test.jar文件中只需要我们自定义的类和辅助类就可以了,然后将我们打的jar包放到flume的lib目录下,如果有依赖jar包,也需要将依赖包放在lib目录下,如果有配置文件,需要在flume的bin目录中将配置文件或文件夹放进去,因为我们flume的启动入口就是bin目录下面的flume-ng文件。

四、编写flume配置文件,将Source定义为我们自己定义的Source,我的配置文件如下,名字为test-mysource.conf:

 

 
  1. # 指定Agent的组件名称

  2. a1.sources = r1

  3. a1.sinks = k1

  4. a1.channels = c1

  5.  
  6. # 指定Flume source(要监听的路径)

  7. a1.sources.r1.type = com.harderxin.flume.test.MySource

  8.  
  9. # 指定Flume sink

  10. a1.sinks.k1.type = file_roll

  11. a1.sinks.k1.sink.directory = D://flume-test//sink

  12.  
  13. # 指定Flume channel

  14. a1.channels.c1.type = memory

  15. a1.channels.c1.capacity = 1000

  16. a1.channels.c1.transactionCapacity = 100

  17. a1.channels.c1.byteCapacityBufferPercentage = 20

  18. a1.channels.c1.byteCapacity = 800000

  19.  
  20. # 绑定source和sink到channel上

  21. a1.sources.r1.channels = c1

  22. a1.sinks.k1.channel = c1


因为sink在type设置为logger在控制台显示不出来,所以我就以文件 追加的方式定义sinks,事先在D盘把flume-test\sink目录建好

 

好了,一切准备就绪,通过cmd命令进入flume的bin目录,启动flume:

 

 flume-ng.cmd agent -conf conf -conf-file ../conf/test-mysource.conf -name a1 

启动好了之后,在D盘的flume-test的sink目录下,会发现很多的追加文件,打开文件内容,就是我们Hello World 23等信息了,而且如果不停止flume的话,sink目录下的文件会不断增加,就是因为SourceRunner线程在不断执行我们自定义Source的process方法

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值