flume拦截器

flume如何自定义拦截器

自定义flume拦截器

拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。

在ideal上开始编写拦截器的代码

需求说明:对于下面这种文件我们只要状态码是404的文件,我们按照空格进行拆分数到第9个就是状态码

1.1.1.1 - - [26/Oct/2020:11:57:02 +0800] "GET / HTTP/2.0" 404 9631 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36" "-"

第一步:引入依赖

 <!-- 根据Linux上flume的版本来 -->
<dependency>
      <groupId>org.apache.flume</groupId>
      <artifactId>flume-ng-core</artifactId>
      <version>1.9.0</version>
</dependency>

第二步:实现Interceptor,写内部类

package com.flume.interceptor;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;


import java.util.ArrayList;
import java.util.List;

/**
 * @Author:wuqi
 * @DATE: 2021/3/24 0024
 * @TIME: 18:36
 * @PROJECT_NAME: flumelanjie
 */
public class Mylanjieqi implements Interceptor {

    //在运行脚本后使得控制台输出一些信息,便于了解运行过程
    private static final Logger logger = LoggerFactory.getLogger(Mylanjieqi.class);
    @Override
    public void initialize() {
        logger.info("----------自定义拦截器初始化---------------------");
    }
    //读取数据,定义拦截规则
    @Override
    public Event intercept(Event event) {
        logger.info("----------自定义拦截规则---------------------");
        byte[] body = event.getBody();
        String str = new String(body);
        #按照空格进行拆分
        String[] split = str.split("\\s+");
        logger.info("----------旧envent---------------------"+event.hashCode());
        #如果这个值满足条件就让其处于消息队列中
        if (split[8].equals("404")){
            event.setBody(str.getBytes());
            logger.info("----------新的envent---------------------"+event.hashCode());
            return event;
        }
        return null;
    }
    // 接收被过滤事件集合
    @Override
    public List<Event> intercept(List<Event> list) {
        logger.info("----------接收被过滤事件集合---------------------");
        List<Event> result = new ArrayList<Event>();
        Event event;
        for (Event e:list){
        #接收每条拦截后的消息
           event = intercept(e);
            if (event!=null){
            #如何有消息传进来就把它塞进集合中
                result.add(event);
            }
        }
        return result;
    }
    @Override
    public void close() {
        logger.info("----------拦截器关闭---------------------");
    }
    #必须有这个内部类
   public static class Builder implements Interceptor.Builder {
        // 获取配置文件的属性
        @Override
        public Interceptor build() {
            logger.info("----------build()执行---------------------");
            return new Mylanjieqi();
        }
        @Override
        public void configure(Context context) {
            logger.info("----------configure(Context context)执行---------------------");
        }
    }
}

第三步:ideal打jar包
新建maven项目–》pom.xml改这个packaging为jar–》ideal编辑器的右侧maven依次点击LifeCycle.clean.install

<groupId>org.example</groupId>
  <artifactId>laner</artifactId>
  <version>1.0-SNAPSHOT</version>
  <packaging>jar</packaging>

打好后的jar包放在flume的lib目录下
第四步:flume的配置
flume-hdfs.conf

# Name the components on this agent
# a1是我们自定义的agent的名字
# a1.sources  a1这个agent包含的多个source的名字
# 包含几个组件就写一个名字空格隔开
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
# 配置source
a1.sources.r1.type = exec
#采集的数据
a1.sources.r1.command = tail -F /root/w.text
# Describe the sink
# 配置sink
a1.sinks.k1.type = hdfs
#hdfs上存放的位置
a1.sinks.k1.hdfs.path = hdfs://wq1:9000/laner
#hdfs上文件的前缀名
a1.sinks.k1.hdfs.filePrefix = laner
#拦截器名称,叫啥名无所谓,与下面这个保持一致就行
a1.sources.r1.interceptors = laner
#拦截器对象创建                                      包名.类名$内部类名
a1.sources.r1.interceptors.laner.type = com.flume.interceptor.Mylanjieqi$Builder
#hdfs sink间隔多长将临时文件滚动成最终目标文件,单位:秒;
a1.sinks.k1.hdfs.rollInterval = 0
#每多少M生成一个文件,是0的话就与无关
a1.sinks.k1.hdfs.rollSize = 0
# 当events数据达到该数量时候,将临时文件滚动成目标文件;
a1.sinks.k1.hdfs.rollCount = 0
# 文件的格式。包含:Text, Writable(默认)
a1.sinks.k1.hdfs.writeFormat = text
#写sequence文件的格式。包含:Text, Writable(默认)
a1.sinks.k1.hdfs.fileType = DataStream
#包括:SequenceFile, DataStream,CompressedStream 使用DataStream时候,文件不会被压缩
# Use a channel which buffers events in memory
# 配置channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 100000
a1.channels.c1.transactionCapacity = 10000
# Bind the source and sink to the channel
# 将组件连接起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第五步:执行
flume的安装位置:/opt/flume-1.9.0/conf
自定义的脚本:/opt/flume-1.9.0/conf/selfconf/flume1-hdfs.conf
开通http服务:flume的web页面(访问路径:http:\你的IP:端口号)
-Dflume.monitoring.type=http表示开通服务,-Dflume.monitoring.port=5653表示访问时的端口号

flume-ng agent \
--conf /opt/flume-1.9.0/conf \
--conf-file /opt/flume-1.9.0/conf/selfconf/flume1-hdfs.conf \
--name a2 \
-Dflume.monitoring.type=http \
-Dflume.monitoring.port=5653 \
-Dflume.root.logger=INFO,console
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值