flume自定义source

    我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!

一、新建java工程项目,在项目中添加flume的核心jar包:

flume-ng-configuration-1.7.0.jar

flume-ng-core-1.7.0.jar

flume-ng-sdk-1.7.0.jar

上面的jar包在flume解压包的lib目录下可以找到

二、自定义Source,我们自定义的消息需要继承PollableSource (轮训拉取)或者EventDrivenSource (事件驱动),两者的区别在于PollableSource是通过线程不断去调用process方法,主动拉取消息,而EventDrivenSource是需要触发一个调用机制,即被动等待。我们还需要实现Configurable接口,以便在项目中初始化某些配置用的,我定义的Source如下:

package com.harderxin.flume.test;

import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.Random;

import org.apache.flume.Context;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.EventBuilder;
import org.apache.flume.source.AbstractSource;

public class MySource extends AbstractSource implements Configurable, PollableSource {

	@Override
	public long getBackOffSleepIncrement() {
		return 0;
	}

	@Override
	public long getMaxBackOffSleepInterval() {
		return 0;
	}

	@Override
	public Status process() throws EventDeliveryException {
		Random random = new Random();
		int randomNum = random.nextInt(100);
		String text = "Hello World :" + random.nextInt(100);
		HashMap<String, String> header = new HashMap<String, String>();
		header.put("id", Integer.toString(randomNum));
		this.getChannelProcessor()
				.processEvent(EventBuilder.withBody(text, Charset.forName("UTF-8"), header));

		return Status.READY;
	}

	@Override
	public void configure(Context arg0) {

	}

}

我自定义的Source比较简单,就是实现了PollableSource,然后在process方法中写我们的逻辑,输出Hello World,并发送给Channel,Source的主要目的就是将数据发送到Channel,到此Source的简单事情就做完了。

configure方法主要是放置一些配置信息,进行初始化一次就可以了,比如我们有些项目需要加载properties、数据库的连接等等

process方法会由PollingRunner线程去不断的调用执行,不理解原理的可以看第二篇文章,执行完后通过getChannelProcess的processEvent方法将我们的数据转换为flume的Event发送到Channel,这个过程在flume启动后会不断去执行。

三、将我们编写的MySource类打成jar包,例如:test.jar,里面依赖的jar包可以不用打包,如果有配置文件,也可以不用打包,test.jar文件中只需要我们自定义的类和辅助类就可以了,然后将我们打的jar包放到flume的lib目录下,如果有依赖jar包,也需要将依赖包放在lib目录下,如果有配置文件,需要在flume的bin目录中将配置文件或文件夹放进去,因为我们flume的启动入口就是bin目录下面的flume-ng文件。

四、编写flume配置文件,将Source定义为我们自己定义的Source,我的配置文件如下,名字为test-mysource.conf:

# 指定Agent的组件名称
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 指定Flume source(要监听的路径)
a1.sources.r1.type = com.harderxin.flume.test.MySource

# 指定Flume sink
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = D://flume-test//sink

# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c1.byteCapacityBufferPercentage = 20
a1.channels.c1.byteCapacity = 800000

# 绑定source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

因为sink在type设置为logger在控制台显示不出来,所以我就以文件 追加的方式定义sinks,事先在D盘把flume-test\sink目录建好

好了,一切准备就绪,通过cmd命令进入flume的bin目录,启动flume:

 flume-ng.cmd agent -conf conf -conf-file ../conf/test-mysource.conf -name a1 
启动好了之后,在D盘的flume-test的sink目录下,会发现很多的追加文件,打开文件内容,就是我们Hello World 23等信息了,而且如果不停止flume的话,sink目录下的文件会不断增加,就是因为SourceRunner线程在不断执行我们自定义Source的process方法



Flume自定义Source实现PollableSource后,可以通过实现 `configure(Context context)` 方法来获取配置信息,然后在 `process()` 方法中控制采集间隔。 具体来说,可以在 `configure(Context context)` 方法中获取配置的采集间隔时间,然后将其转换成毫秒数,保存到一个变量中。然后在 `process()` 方法中,使用 `Thread.sleep()` 方法控制采集间隔时间。 以下是一个示例代码: ```java public class MySource extends AbstractPollableSource { private long pollInterval; @Override public void configure(Context context) { // 从配置文件中获取采集间隔时间,单位为秒 pollInterval = context.getLong("pollInterval", 60); pollInterval *= 1000; // 转换成毫秒数 } @Override protected Status doProcess() throws EventDeliveryException { try { // 采集数据 List<Event> events = pollData(); // 发送事件 getChannelProcessor().processEventBatch(events); // 控制采集间隔时间 Thread.sleep(pollInterval); return Status.READY; } catch (InterruptedException e) { return Status.BACKOFF; } } private List<Event> pollData() { // 采集数据的实现 // ... } } ``` 在上面的示例代码中,我们首先在 `configure(Context context)` 方法中获取配置的采集间隔时间,然后在 `process()` 方法中使用 `Thread.sleep()` 方法控制采集间隔时间。 需要注意的是,由于 `Thread.sleep()` 方法会阻塞当前线程,因此在 `process()` 方法中需要处理 `InterruptedException` 异常,并返回 `Status.BACKOFF` 以避免无限重试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值