一、需求
使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。
二、需求分析
在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel 中,所以我们需要自定义一个 Interceptor,为不同类型的 event 的 Header 中的 key 赋予不同的值。
在该案例中,我们以端口数据模拟日志,以数字(单个)和字母(单个)模拟不同类型的日志,我们需要自定义 interceptor 区分数字和字母,将其分别发往不同的分析系统(Channel)。
三、 流程图示
四、步骤
4.1 编写代码
1、创建 maven 项目,加入以下依赖
<dependency>
<groupId>org.apache.flume</groupId>
<artifactId>flume-ng-core</artifactId>
<version>1.7.0</version>
</dependency>
2、实现 CustomInterceptor 类并实现 Interceptor 接口
package interceptorstudy;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.ArrayList;
import java.util.List;
/**
* @description: 自定义 Interceptor,要实现 Interceptor 接口
* @author: hyr
* @time: 2020/3/4 8:14
*/
public class CustomInterceptor implements Interceptor {
@Override
public void initialize() {
}
/*
用来处理每一个 event 对象,该方法不会被系统自动调用,一般在
List<Event> intercept(List<Event> events) 方法内部调用。
*/
@Override
public Event intercept(Event event) {
byte[] body = event.getBody();
if (body[0] <= 'z' && body[0] >= 'a'){
event.getHeaders().put("type", "letter");
}else if (body[0] >= '0' && body[0] <= '9'){
event.getHeaders().put("type", "number");
}else {
return null;
}
return event;
}
/*
这里编写对于 event 对象集合的处理代码,一般都是遍历 event 的对象集合,
对于每一个 event 对象,调用 Event intercept(Event event) 方法,
然后根据返回值是否为null,来将其添加到新的集合中。
*/
@Override
public List<Event> intercept(List<Event> events) {
List<Event> results = new ArrayList<>();
Event event;
for (Event e : events) {
event = intercept(e);
if (event != null){
results.add(event);
}
}
return results;
}
@Override
public void close() {
}
/*
通过静态内部类来创建自定义对象供 flume 使用。
*/
public static class Builder implements Interceptor.Builder{
@Override
public Interceptor build() {
return new CustomInterceptor();
}
@Override
public void configure(Context context) {
}
}
}
3、用 maven 打成 jar 包,上传到机器上,将 jar 包放入 lib 目录下
4.2 编辑 flume1.conf
为 hadoop151 上的 Flume1 配置 1 个 netcat source,1 个 sink group(2 个 avro sink),并配置相应的 ChannelSelector 和 interceptor。
编辑 flume1.conf 文件:
# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = interceptorstudy.CustomInterceptor$Builder
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = type
a1.sources.r1.selector.mapping.letter = c1
a1.sources.r1.selector.mapping.number = c2
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop152
a1.sinks.k1.port = 4141
a1.sinks.k2.type=avro
a1.sinks.k2.hostname = hadoop153
a1.sinks.k2.port = 4142
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Use a channel which buffers events in memory
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2
4.3 编辑 flume2.conf
为 hadoop152 上的 Flume2 配置一个 avro source 和 一个 logger sink。
a2.sources = r1
a2.sinks = k1
a2.channels = c1
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop152
a2.sources.r1.port = 4141
a2.sinks.k1.type = logger
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100
a2.sinks.k1.channel = c1
a2.sources.r1.channels = c1
4.4 编辑 flume3.conf
为 hadoop153 上的 Flume3 配置一个 avro source 和一个 logger sink。
a3.sources = r1
a3.sinks = k1
a3.channels = c1
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop153
a3.sources.r1.port = 4142
a3.sinks.k1.type = logger
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100
a3.sinks.k1.channel = c1
a3.sources.r1.channels = c1
4.5 在各个机器上启动 flume 进程
先启动 hadoop153
[test@hadoop153 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/intercepter/flume3.conf -Dflume.root.logger=INFO,console
再启动 hadoop152
[test@hadoop152 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/intercepter/flume2.conf -Dflume.root.logger=INFO,console
最后启动 hadoop151
[test@hadoop151 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/intercepter/flume1.conf
4.6 在 hadoop151 上使用 netcat 发送数据
4.7 观察日志
hadoop152 上:
hadoop153 上:
可以发现数字与字母分别打印在两个 shell 中,而不满足的字符,则被过滤掉。