Flume中的拦截器(Interceptor)介绍与使用(二)

Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:

Timestamp Interceptor;
Host Interceptor;
Static Interceptor;
UUID Interceptor;
Morphline Interceptor;
Search and Replace Interceptor;
Regex Filtering Interceptor;
Regex Extractor Interceptor;

本文接上一篇《Flume中的拦截器(Interceptor)介绍与使用(一)》,继续对剩下几种拦截器进行学习和介绍,并附上使用示例。

Search and Replace Interceptor

该拦截器用于将events中的正则匹配到的内容做相应的替换。

具体配置示例如下:

 
  1. ## source 拦截器
  2. agent_lxw1234.sources.sources1.interceptors = i1
  3. agent_lxw1234.sources.sources1.interceptors.i1.type = search_replace
  4. agent_lxw1234.sources.sources1.interceptors.i1.searchPattern = [0-9]+
  5. agent_lxw1234.sources.sources1.interceptors.i1.replaceString = lxw1234
  6. agent_lxw1234.sources.sources1.interceptors.i1.charset = UTF-8
  7.  
  8. # sink 1 配置
  9. ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink
  10. agent_lxw1234.sinks.sink1.type = logger
  11. agent_lxw1234.sinks.sink1.channel = fileChannel
  12.  

该配置将events中的数字替换为lxw1234。

原始的events内容为:

flume interceptor

实际的events内容为:

flume interceptor

Regex Filtering Interceptor

该拦截器使用正则表达式过滤原始events中的内容。

配置示例如下:

 
  1. ## source 拦截器
  2. agent_lxw1234.sources.sources1.interceptors = i1
  3. agent_lxw1234.sources.sources1.interceptors.i1.type = regex_filter
  4. agent_lxw1234.sources.sources1.interceptors.i1.regex = ^lxw1234.*
  5. agent_lxw1234.sources.sources1.interceptors.i1.excludeEvents = false
  6.  
  7. # sink 1 配置
  8. ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink
  9. agent_lxw1234.sinks.sink1.type = logger
  10. agent_lxw1234.sinks.sink1.channel = fileChannel
  11.  

该配置表示过滤掉不是以lxw1234开头的events。

如果excludeEvents设为true,则表示过滤掉以lxw1234开头的events。

原始events内容为:

flume interceptors

拦截后的events内容为:

flume interceptors

Regex Extractor Interceptor

该拦截器使用正则表达式抽取原始events中的内容,并将该内容加入events header中。

配置示例如下:

 
  1. ## source 拦截器
  2. agent_lxw1234.sources.sources1.interceptors = i1
  3. agent_lxw1234.sources.sources1.interceptors.i1.type = regex_extractor
  4. agent_lxw1234.sources.sources1.interceptors.i1.regex = cookieid is (.*?) and ip is (.*?)
  5. agent_lxw1234.sources.sources1.interceptors.i1.serializers = s1 s2
  6. agent_lxw1234.sources.sources1.interceptors.i1.serializers.s1.type = default
  7. agent_lxw1234.sources.sources1.interceptors.i1.serializers.s1.name = cookieid
  8. agent_lxw1234.sources.sources1.interceptors.i1.serializers.s2.type = default
  9. agent_lxw1234.sources.sources1.interceptors.i1.serializers.s2.name = ip
  10.  
  11. # sink 1 配置
  12. ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink
  13. agent_lxw1234.sinks.sink1.type = logger
  14. agent_lxw1234.sinks.sink1.channel = fileChannel
  15.  

该配置从原始events中抽取出cookieid和ip,加入到events header中。

原始的events内容为:

flume interceptors

events header中的内容为:

flume interceptors

 

Flume的拦截器可以配合Sink完成许多业务场景需要的功能,

比如:按照时间及主机生成目标文件目录及文件名;

配合Kafka Sink完成多分区的写入等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值