flume自定义source

一、
在使用flume采集日志时,可以通过flume进行监控某一个文件把生产的数据传输给指定的sink,但是有时使用官方给的source不能解决我们的需求或者有一些缺点,就比如日志收集,source是exec类型,通过tail -F 进行监控,但是如果某段时间flume所在机器宕机了,那么当重新启动后,在去监控时,会导致有数据丢失,不是接着上一次的数据继续进行读取,因此针对这种情况时可能需要我们自定一个source,记录偏移量,每次都都是接着上次继续读


下面就是具体实现的代码
再写代码时可以参照官方给的source的源码进行编写,比如ExecSource
flume的生命周期: 先执行构造器,再执行 config方法 --> start方法 --> processor.process–> stop
读取配置文件:(配置读取的文件内容:读取那个文件,编码及、偏移量写到那个文件,多长时间检测一下文件是否有新内容

import org.apache.commons.io.FileUtils;
import org.apache.flume.Context;
import org.apache.flume.EventDrivenSource;
import org.apache.flume.channel.ChannelProcessor;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.EventBuilder;
import org.apache.flume.source.AbstractSource;
import org.apache.flume.source.ExecSource;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.File;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.charset.Charset;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;


//自定义source,记录偏移量
    /*
    flume的生命周期: 先执行构造器,再执行 config方法 -> start方法-》 processor.process
    1、读取配置文件:(配置读取的文件内容:读取那个文件,编码及、偏移量写到那个文件,多长时间检测一下文件是否有新内容
    )
     */
public class TailFileSource extends AbstractSource implements EventDrivenSource, Configurable {
   
    //记录日志
    private static final Logger logger = LoggerFactory.getLogger(ExecSource.class);
    private String filePath;
    private String  charset
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flume自定义Source实现PollableSource后,可以通过实现 `configure(Context context)` 方法来获取配置信息,然后在 `process()` 方法中控制采集间隔。 具体来说,可以在 `configure(Context context)` 方法中获取配置的采集间隔时间,然后将其转换成毫秒数,保存到一个变量中。然后在 `process()` 方法中,使用 `Thread.sleep()` 方法控制采集间隔时间。 以下是一个示例代码: ```java public class MySource extends AbstractPollableSource { private long pollInterval; @Override public void configure(Context context) { // 从配置文件中获取采集间隔时间,单位为秒 pollInterval = context.getLong("pollInterval", 60); pollInterval *= 1000; // 转换成毫秒数 } @Override protected Status doProcess() throws EventDeliveryException { try { // 采集数据 List<Event> events = pollData(); // 发送事件 getChannelProcessor().processEventBatch(events); // 控制采集间隔时间 Thread.sleep(pollInterval); return Status.READY; } catch (InterruptedException e) { return Status.BACKOFF; } } private List<Event> pollData() { // 采集数据的实现 // ... } } ``` 在上面的示例代码中,我们首先在 `configure(Context context)` 方法中获取配置的采集间隔时间,然后在 `process()` 方法中使用 `Thread.sleep()` 方法控制采集间隔时间。 需要注意的是,由于 `Thread.sleep()` 方法会阻塞当前线程,因此在 `process()` 方法中需要处理 `InterruptedException` 异常,并返回 `Status.BACKOFF` 以避免无限重试。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值