flume自定义source

    我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!

一、新建java工程项目,在项目中添加flume的核心jar包:

flume-ng-configuration-1.7.0.jar

flume-ng-core-1.7.0.jar

flume-ng-sdk-1.7.0.jar

上面的jar包在flume解压包的lib目录下可以找到

二、自定义Source,我们自定义的消息需要继承PollableSource (轮训拉取)或者EventDrivenSource (事件驱动),两者的区别在于PollableSource是通过线程不断去调用process方法,主动拉取消息,而EventDrivenSource是需要触发一个调用机制,即被动等待。我们还需要实现Configurable接口,以便在项目中初始化某些配置用的,我定义的Source如下:

package com.harderxin.flume.test;

import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.Random;

import org.apache.flume.Context;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.EventBuilder;
import org.apache.flume.source.AbstractSource;

public class MySource extends AbstractSource implements Configurable, PollableSource {

	@Override
	public long getBackOffSleepIncrement() {
		return 0;
	}

	@Override
	public long getMaxBackOffSleepInterval() {
		return 0;
	}

	@Override
	public Status process() throws EventDeliveryException {
		Random random = new Random();
		int randomNum = random.nextInt(100);
		String text = "Hello World :" + random.nextInt(100);
		HashMap<String, String> header = new HashMap<String, String>();
		header.put("id", Integer.toString(randomNum));
		this.getChannelProcessor()
				.processEvent(EventBuilder.withBody(text, Charset.forName("UTF-8"), header));

		return Status.READY;
	}

	@Override
	public void configure(Context arg0) {

	}

}

我自定义的Source比较简单,就是实现了PollableSource,然后在process方法中写我们的逻辑,输出Hello World,并发送给Channel,Source的主要目的就是将数据发送到Channel,到此Source的简单事情就做完了。

configure方法主要是放置一些配置信息,进行初始化一次就可以了,比如我们有些项目需要加载properties、数据库的连接等等

process方法会由PollingRunner线程去不断的调用执行,不理解原理的可以看第二篇文章,执行完后通过getChannelProcess的processEvent方法将我们的数据转换为flume的Event发送到Channel,这个过程在flume启动后会不断去执行。

三、将我们编写的MySource类打成jar包,例如:test.jar,里面依赖的jar包可以不用打包,如果有配置文件,也可以不用打包,test.jar文件中只需要我们自定义的类和辅助类就可以了,然后将我们打的jar包放到flume的lib目录下,如果有依赖jar包,也需要将依赖包放在lib目录下,如果有配置文件,需要在flume的bin目录中将配置文件或文件夹放进去,因为我们flume的启动入口就是bin目录下面的flume-ng文件。

四、编写flume配置文件,将Source定义为我们自己定义的Source,我的配置文件如下,名字为test-mysource.conf:

# 指定Agent的组件名称
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 指定Flume source(要监听的路径)
a1.sources.r1.type = com.harderxin.flume.test.MySource

# 指定Flume sink
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = D://flume-test//sink

# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c1.byteCapacityBufferPercentage = 20
a1.channels.c1.byteCapacity = 800000

# 绑定source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

因为sink在type设置为logger在控制台显示不出来,所以我就以文件 追加的方式定义sinks,事先在D盘把flume-test\sink目录建好

好了,一切准备就绪,通过cmd命令进入flume的bin目录,启动flume:

 flume-ng.cmd agent -conf conf -conf-file ../conf/test-mysource.conf -name a1 
启动好了之后,在D盘的flume-test的sink目录下,会发现很多的追加文件,打开文件内容,就是我们Hello World 23等信息了,而且如果不停止flume的话,sink目录下的文件会不断增加,就是因为SourceRunner线程在不断执行我们自定义Source的process方法



  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值