mapreduce web日志预处理

原创 2017年07月17日 20:06:29

需求:
对web访问日志中的各字段识别切分
去除日志中不合法的记录
根据KPI统计需求,生成各类访问请求过滤数据

2、实现代码:
a) 定义一个bean,用来记录日志数据中的各数据字段
public class WebLogBean {

private String remote_addr;// 记录客户端的ip地址
private String remote_user;// 记录客户端用户名称,忽略属性"-"
private String time_local;// 记录访问时间与时区
private String request;// 记录请求的url与http协议
private String status;// 记录请求状态;成功是200
private String body_bytes_sent;// 记录发送给客户端文件主体内容大小
private String http_referer;// 用来记录从那个页面链接访问过来的
private String http_user_agent;// 记录客户浏览器的相关信息

private boolean valid = true;// 判断数据是否合法



public String getRemote_addr() {
    return remote_addr;
}

public void setRemote_addr(String remote_addr) {
    this.remote_addr = remote_addr;
}

public String getRemote_user() {
    return remote_user;
}

public void setRemote_user(String remote_user) {
    this.remote_user = remote_user;
}

public String getTime_local() {
    return time_local;
}

public void setTime_local(String time_local) {
    this.time_local = time_local;
}

public String getRequest() {
    return request;
}

public void setRequest(String request) {
    this.request = request;
}

public String getStatus() {
    return status;
}

public void setStatus(String status) {
    this.status = status;
}

public String getBody_bytes_sent() {
    return body_bytes_sent;
}

public void setBody_bytes_sent(String body_bytes_sent) {
    this.body_bytes_sent = body_bytes_sent;
}

public String getHttp_referer() {
    return http_referer;
}

public void setHttp_referer(String http_referer) {
    this.http_referer = http_referer;
}

public String getHttp_user_agent() {
    return http_user_agent;
}

public void setHttp_user_agent(String http_user_agent) {
    this.http_user_agent = http_user_agent;
}

public boolean isValid() {
    return valid;
}

public void setValid(boolean valid) {
    this.valid = valid;
}


@Override
public String toString() {
    StringBuilder sb = new StringBuilder();
    sb.append(this.valid);
    sb.append("\001").append(this.remote_addr);
    sb.append("\001").append(this.remote_user);
    sb.append("\001").append(this.time_local);
    sb.append("\001").append(this.request);
    sb.append("\001").append(this.status);
    sb.append("\001").append(this.body_bytes_sent);
    sb.append("\001").append(this.http_referer);
    sb.append("\001").append(this.http_user_agent);
    return sb.toString();

}
}

b)定义一个parser用来解析过滤web访问日志原始记录
public class WebLogParser {
public static WebLogBean parser(String line) {
WebLogBean webLogBean = new WebLogBean();
String[] arr = line.split(” “);
if (arr.length > 11) {
webLogBean.setRemote_addr(arr[0]);
webLogBean.setRemote_user(arr[1]);
webLogBean.setTime_local(arr[3].substring(1));
webLogBean.setRequest(arr[6]);
webLogBean.setStatus(arr[8]);
webLogBean.setBody_bytes_sent(arr[9]);
webLogBean.setHttp_referer(arr[10]);

        if (arr.length > 12) {
            webLogBean.setHttp_user_agent(arr[11] + " " + arr[12]);
        } else {
            webLogBean.setHttp_user_agent(arr[11]);
        }
        if (Integer.parseInt(webLogBean.getStatus()) >= 400) {// 大于400,HTTP错误
            webLogBean.setValid(false);
        }
    } else {
        webLogBean.setValid(false);
    }
    return webLogBean;
}

public static String parserTime(String time) {

    time.replace("/", "-");
    return time;

}

}

c) mapreduce程序
public class WeblogPreProcess {

static class WeblogPreProcessMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Text k = new Text();
    NullWritable v = NullWritable.get();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();
        WebLogBean webLogBean = WebLogParser.parser(line);
        if (!webLogBean.isValid())
            return;
        k.set(webLogBean.toString());
        context.write(k, v);

    }

}

public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf);

    job.setJarByClass(WeblogPreProcess.class);

    job.setMapperClass(WeblogPreProcessMapper.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    job.waitForCompletion(true);

}

}

hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)

刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理。我...
  • zfszhangyuan
  • zfszhangyuan
  • 2016年09月13日 15:41
  • 4002

MapReduce分析日志---代码流程解读

原文链接:http://blog.fens.me/hadoop-mapreduce-log-kpi/ 数据类来源:网站访问记录 先上代码: 对原作者的代码进行了部分更改以适应新版本的Hadoop...
  • shb19891
  • shb19891
  • 2015年12月15日 20:53
  • 1078

Hadoop-web日志信息挖掘MapReduce简单应用以及代码下载

结合上面两篇博文的内容,首先提一下hadoop的安装和配置。 Hadoop-利用java API操作HDFS文件 Hadoop-MapReduce初步应用-统计单词个数 上面两篇文章中提到了如何...
  • u010156024
  • u010156024
  • 2015年12月02日 15:10
  • 2468

Web日志挖掘中数据预处理的研究

  • 2010年04月21日 00:47
  • 107KB
  • 下载

基于MapReduce的海量Web日志分析

转载出处: http://blog.fens.me/hadoop-mapreduce-log-kpi/ 前言 Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访...
  • jiangsanfeng1111
  • jiangsanfeng1111
  • 2015年05月05日 09:05
  • 676

Flume日志收集与MapReduce模式

  • 2016年03月14日 17:47
  • 27.91MB
  • 下载

MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: ...
  • liuxiaochen123
  • liuxiaochen123
  • 2012年11月29日 13:42
  • 619

Hadoop 实战之MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: ...
  • xiaotom5
  • xiaotom5
  • 2012年10月17日 21:14
  • 8329

Hadoop 实战之MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: ...
  • kirayuan
  • kirayuan
  • 2012年11月21日 09:49
  • 2715

Web挖掘中的数据预处理算法研究

  • 2008年03月10日 11:31
  • 81KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mapreduce web日志预处理
举报原因:
原因补充:

(最多只允许输入30个字)