我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!
一、新建java工程项目,在项目中添加flume的核心jar包:
flume-ng-configuration-1.7.0.jar
flume-ng-core-1.7.0.jar
flume-ng-sdk-1.7.0.jar
上面的jar包在flume解压包的lib目录下可以找到
二、自定义Source,我们自定义的消息需要继承PollableSource (轮训拉取)或者EventDrivenSource (事件驱动),两者的区别在于PollableSource是通过线程不断去调用process方法,主动拉取消息,而EventDrivenSource是需要触发一个调用机制,即被动等待。我们还需要实现Configurable接口,以便在项目中初始化某些配置用的,我定义的Source如下:
package com.harderxin.flume.test;
import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.Random;
import org.apache.flume.Context;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.EventBuilder;
import org.apache.flume.source.AbstractSource;
public class MySource extends AbstractSource implements Configurable, PollableSource {
@Override
public long getBackOffSleepIncrement() {
return 0;
}
@Override
public long getMaxBackOffSleepInterval() {
return 0;
}
@Override
public Status process() throws EventDeliveryException {
Random random = new Random();
int randomNum = random.nextInt(100);
String text = "Hello World :" + random.nextInt(100);
HashMap<String, String> header = new HashMap<String, String>();
header.put("id", Integer.toString(randomNum));
this.getChannelProcessor()
.processEvent(EventBuilder.withBody(text, Charset.forName("UTF-8"), header));
return Status.READY;
}
@Override
public void configure(Context arg0) {
}
}
我自定义的Source比较简单,就是实现了PollableSource,然后在process方法中写我们的逻辑,输出Hello World,并发送给Channel,Source的主要目的就是将数据发送到Channel,到此Source的简单事情就做完了。
configure方法主要是放置一些配置信息,进行初始化一次就可以了,比如我们有些项目需要加载properties、数据库的连接等等
process方法会由PollingRunner线程去不断的调用执行,不理解原理的可以看第二篇文章,执行完后通过getChannelProcess的processEvent方法将我们的数据转换为flume的Event发送到Channel,这个过程在flume启动后会不断去执行。
三、将我们编写的MySource类打成jar包,例如:test.jar,里面依赖的jar包可以不用打包,如果有配置文件,也可以不用打包,test.jar文件中只需要我们自定义的类和辅助类就可以了,然后将我们打的jar包放到flume的lib目录下,如果有依赖jar包,也需要将依赖包放在lib目录下,如果有配置文件,需要在flume的bin目录中将配置文件或文件夹放进去,因为我们flume的启动入口就是bin目录下面的flume-ng文件。
四、编写flume配置文件,将Source定义为我们自己定义的Source,我的配置文件如下,名字为test-mysource.conf:
# 指定Agent的组件名称
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 指定Flume source(要监听的路径)
a1.sources.r1.type = com.harderxin.flume.test.MySource
# 指定Flume sink
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = D://flume-test//sink
# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c1.byteCapacityBufferPercentage = 20
a1.channels.c1.byteCapacity = 800000
# 绑定source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
因为sink在type设置为logger在控制台显示不出来,所以我就以文件 追加的方式定义sinks,事先在D盘把flume-test\sink目录建好
好了,一切准备就绪,通过cmd命令进入flume的bin目录,启动flume: