mapreduce web日志预处理

原创 2017年07月17日 20:06:29

需求:
对web访问日志中的各字段识别切分
去除日志中不合法的记录
根据KPI统计需求,生成各类访问请求过滤数据

2、实现代码:
a) 定义一个bean,用来记录日志数据中的各数据字段
public class WebLogBean {

private String remote_addr;// 记录客户端的ip地址
private String remote_user;// 记录客户端用户名称,忽略属性"-"
private String time_local;// 记录访问时间与时区
private String request;// 记录请求的url与http协议
private String status;// 记录请求状态;成功是200
private String body_bytes_sent;// 记录发送给客户端文件主体内容大小
private String http_referer;// 用来记录从那个页面链接访问过来的
private String http_user_agent;// 记录客户浏览器的相关信息

private boolean valid = true;// 判断数据是否合法



public String getRemote_addr() {
    return remote_addr;
}

public void setRemote_addr(String remote_addr) {
    this.remote_addr = remote_addr;
}

public String getRemote_user() {
    return remote_user;
}

public void setRemote_user(String remote_user) {
    this.remote_user = remote_user;
}

public String getTime_local() {
    return time_local;
}

public void setTime_local(String time_local) {
    this.time_local = time_local;
}

public String getRequest() {
    return request;
}

public void setRequest(String request) {
    this.request = request;
}

public String getStatus() {
    return status;
}

public void setStatus(String status) {
    this.status = status;
}

public String getBody_bytes_sent() {
    return body_bytes_sent;
}

public void setBody_bytes_sent(String body_bytes_sent) {
    this.body_bytes_sent = body_bytes_sent;
}

public String getHttp_referer() {
    return http_referer;
}

public void setHttp_referer(String http_referer) {
    this.http_referer = http_referer;
}

public String getHttp_user_agent() {
    return http_user_agent;
}

public void setHttp_user_agent(String http_user_agent) {
    this.http_user_agent = http_user_agent;
}

public boolean isValid() {
    return valid;
}

public void setValid(boolean valid) {
    this.valid = valid;
}


@Override
public String toString() {
    StringBuilder sb = new StringBuilder();
    sb.append(this.valid);
    sb.append("\001").append(this.remote_addr);
    sb.append("\001").append(this.remote_user);
    sb.append("\001").append(this.time_local);
    sb.append("\001").append(this.request);
    sb.append("\001").append(this.status);
    sb.append("\001").append(this.body_bytes_sent);
    sb.append("\001").append(this.http_referer);
    sb.append("\001").append(this.http_user_agent);
    return sb.toString();

}
}

b)定义一个parser用来解析过滤web访问日志原始记录
public class WebLogParser {
public static WebLogBean parser(String line) {
WebLogBean webLogBean = new WebLogBean();
String[] arr = line.split(” “);
if (arr.length > 11) {
webLogBean.setRemote_addr(arr[0]);
webLogBean.setRemote_user(arr[1]);
webLogBean.setTime_local(arr[3].substring(1));
webLogBean.setRequest(arr[6]);
webLogBean.setStatus(arr[8]);
webLogBean.setBody_bytes_sent(arr[9]);
webLogBean.setHttp_referer(arr[10]);

        if (arr.length > 12) {
            webLogBean.setHttp_user_agent(arr[11] + " " + arr[12]);
        } else {
            webLogBean.setHttp_user_agent(arr[11]);
        }
        if (Integer.parseInt(webLogBean.getStatus()) >= 400) {// 大于400,HTTP错误
            webLogBean.setValid(false);
        }
    } else {
        webLogBean.setValid(false);
    }
    return webLogBean;
}

public static String parserTime(String time) {

    time.replace("/", "-");
    return time;

}

}

c) mapreduce程序
public class WeblogPreProcess {

static class WeblogPreProcessMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Text k = new Text();
    NullWritable v = NullWritable.get();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();
        WebLogBean webLogBean = WebLogParser.parser(line);
        if (!webLogBean.isValid())
            return;
        k.set(webLogBean.toString());
        context.write(k, v);

    }

}

public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf);

    job.setJarByClass(WeblogPreProcess.class);

    job.setMapperClass(WeblogPreProcessMapper.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    job.waitForCompletion(true);

}

}

相关文章推荐

Web日志挖掘中数据预处理的研究

  • 2010年04月21日 00:47
  • 107KB
  • 下载

基于MapReduce的海量Web日志分析

转载出处: http://blog.fens.me/hadoop-mapreduce-log-kpi/ 前言 Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访...

Hadoop-web日志信息挖掘MapReduce简单应用以及代码下载

结合上面两篇博文的内容,首先提一下hadoop的安装和配置。 Hadoop-利用java API操作HDFS文件 Hadoop-MapReduce初步应用-统计单词个数 上面两篇文章中提到了如何...

Flume日志收集与MapReduce模式

  • 2016年03月14日 17:47
  • 27.91MB
  • 下载

Hadoop 实战之MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: ...

Hadoop 实战之MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: ...

Web挖掘中的数据预处理算法研究

  • 2008年03月10日 11:31
  • 81KB
  • 下载

hadoop mapreduce 程序调试日志合并查看shell

hadoop mapreduce 程序调试日志合并查看shell 上一篇文章介绍了如何在web中查看日志并且进行调试。现在介绍一种通过shell方式进行处理调试信息。 本文阅读前提: 1、已...

使用MapReduce将Hadoop HDFS中的日志文件导入HBase中(二)

今天来记录一下由HDFS高效率导入HBase的两种导入方式。经过测试,导入时间明显减少。1.使用Map+Reduce方式 2.只使用Map的方式...
  • ltliyue
  • ltliyue
  • 2016年05月13日 09:28
  • 875

MapReduce应用开发 简单筛选日志

利用hadoop eclipse插件可以方便的开发MapReduce程序,下面是一个简单的提取日志信息的示例,主要将日志中第一列、第二列和第六列中的信息提取出来,在代码中主要开发map的程序,redu...
  • sherld
  • sherld
  • 2014年12月30日 20:21
  • 384
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mapreduce web日志预处理
举报原因:
原因补充:

(最多只允许输入30个字)