学习flume以来,实现了日志的多来源自动抽取和多target的自动发送等,但是一直以来的数据清洗过程一直是放在hadoop中用MR程序定时进行清洗的,有没有一种方式编程能够直接在flume中来进行相关的数据清洗数据匹配,过滤掉那些不规范的脏数据,于是决定打这个flume拦截器的主义,觉得只要把代码稍微改改,从拦截body开始自定义intercepter编程完成每个body字符串的解析字段的正则提取和拼接,我们自定义的这个类叫:LogAnalysis 如下:
package com.besttone.interceptor;
import com.google.common.base.Charsets;
import com.google.common.collect.Lists;
import org.apache.commons.lang.StringUtils;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* @author zhenzhen
* @create 2016-08-18 上午8:47
**/
public class LogAnalysis implements Interceptor {
private LogAnalysis() {
}
@Override
public void initialize() {
// NO-OP...
}
@Override
public void close() {
// NO-OP...
}
// JAVA中用于处理字符串常用的有三个类:
//
// java.lang.String、
//
// java.lang.StringBuffer、
//
// java.lang.StringBuilder,
//
// 这三者的共同之处都是 final 类,不允许被继承,这主要是从性能和安全性上考虑的,因为这几个类都是经常被使用着的,且考虑到防止其中的参数被修改影响到其它的应用。
//
// StringBuffer 与 StringBuilder 两个基本上差不多,只是 StringBuffer 是线程安全,可以不需要额外的同步用于多线程中;
//
// StringBuilder 是非同步,运行于多线程中就需要使用着单独同步处理,但是速度就比 StringBuffer 快多了;二者之间的共同点都可以通过append、insert进行字符串的操作。
//
// String 实现了三个接口:Serializable、Comparable<String>、CharSequence,
//
// 而 StringBuffer 及 StringBuilder 只实现了两个接口 Serializable、CharSequence,相比之下 String 的实例可以通过 compareTo 方法进行比较,而其它两个就不可以。
@Override
public Event intercept(Event event) {
String body = new String(event.getBody(), Charsets.UTF_8);
System.out.println("body:"+body.toString());
//String line = "2016-04-18 16:00:00 {\"areacode\":\"浙江省丽水市\",\"countAll\":0,\"countCorrect\":0,\"datatime\":\"4134362\",\"logid\":\"201604181600001184409476\",\"requestinfo\":\"{\\\"sign\\\":\\\"4\\\",\\\"timestamp\\\":\\\"1460966390499\\\",\\\"remark\\\":\\\"4\\\",\\\"subjectPro\\\":\\\"123456\\\",\\\"interfaceUserName\\\":\\\"12345678900987654321\\\",\\\"channelno\\\":\\\"100\\\",\\\"imei\\\":\\\"12345678900987654321\\\",\\\"subjectNum\\\":\\\"13989589062\\\",\\\"imsi\\\":\\\"12345678900987654321\\\",\\\"queryNum\\\":\\\"13989589062\\\"}\",\"requestip\":\"36.16.128.234\",\"requesttime\":\"2016-04-18 16:59:59\",\"requesttype\":\"0\",\"responsecode\":\"010005\",\"responsedata\":\"无查询结果\"}\n";
String pattern1 = "\"areacode\":\"[\\u4e00-\\u9fa5]*"; //汉字正则表达式
String pattern2 = "\"datatime\":\"[0-9]*"; //数字正则表达式
String pattern3 = "\\\\\"imei\\\\\":\\\\\"[0-9]*"; //时间正则表达式 \\\\\"imei\\\\\":\\\\\"
String pattern4 = "\"requestip\":\"[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}"; //ip正则表达式
String pattern5 = "\"requesttime\":\"((19|20)\\d\\d)-(0[1-9]|1[012])-(0[1-9]|[12][0-9]|3[01]) ([012][0-9]):([0-5][0-9]):([0-5][0-9])"; //"requesttime":"2016-04-18 16:00:00
//String pattern = "\"areacode\":\"[^0-9a-z]*\",";
// 创建 Pattern 对象
Pattern r1 = Pattern.compile(pattern1);
Pattern r2 = Pattern.compile(pattern2);
Pattern r3 = Pattern.compile(pattern3);
Pattern r4 = Pattern.compile(pattern4);
Pattern r5 = Pattern.compile(pattern5);
// 现在创建 matcher 对象
Matcher m1 = r1.matcher(body);
Matcher m2 = r2.matcher(body);
Matcher m3 = r3.matcher(body);
Matcher m4 = r4.matcher(body);
Matcher m5 = r5.matcher(body);
StringBuffer bodyoutput = new StringBuffer();
if (m1.find() && m2.find() && m3.find() && m4.find() && m5.find()) {
bodyoutput = bodyoutput.append(m1.group(0)+("|")+m2.group(0)+"|"+m3.group(0)+"|"+m4.group(0)+"|"+m5.group(0));
} else {
bodyoutput = bodyoutput.append("No match!!!");
}
//System.out.println("result:"+JsonUtil.ObjectToJsonString(report));
event.setBody(bodyoutput.toString().getBytes());
return event;
}
@Override
public List<Event> intercept(List<Event> events) {
List<Event> intercepted = Lists.newArrayListWithCapacity(events.size());
for (Event event : events) {
Event interceptedEvent = intercept(event);
if (interceptedEvent != null) {
intercepted.add(interceptedEvent);
}
}
return intercepted;
}
public static class Builder implements Interceptor.Builder {
//使用Builder初始化Interceptor
@Override
public Interceptor build() {
return new LogAnalysis();
}
@Override
public void configure(Context context) {
}
}
}
从上面的代码可以看出我们只要
public class LogAnalysis implements Interceptor
继承这个接口,重新自己自定义实现它。具体的实现过程放到
public Event intercept(Event event)方法中,最后在Interceptor.Builder中返回我们自定义的类LogAnalysis
public static class Builder implements Interceptor.Builder { //使用Builder初始化Interceptor @Override public Interceptor build() { return new LogAnalysis(); } @Override public void configure(Context context) { } }写到这里,大家一定会问,这个程序没有main函数怎么调试呢?
是的,这个问题问的好,其实我当时在学习这个的过程中也思考过这个问题。
其实很简单,我编程的核心部分是在重构flume的event中的body,那么body其本质上就是我们抽取日志中的一行字符串,那么我们可以将这部分字符串的处理拎出来,放到自己的main函数中进行编程调试一旦调试成功,字符串按照我们自定义的方式进行处理了,我们再将这部分代码ÿ