mapreduce web日志预处理

原创 2017年07月17日 20:06:29

需求:
对web访问日志中的各字段识别切分
去除日志中不合法的记录
根据KPI统计需求,生成各类访问请求过滤数据

2、实现代码:
a) 定义一个bean,用来记录日志数据中的各数据字段
public class WebLogBean {

private String remote_addr;// 记录客户端的ip地址
private String remote_user;// 记录客户端用户名称,忽略属性"-"
private String time_local;// 记录访问时间与时区
private String request;// 记录请求的url与http协议
private String status;// 记录请求状态;成功是200
private String body_bytes_sent;// 记录发送给客户端文件主体内容大小
private String http_referer;// 用来记录从那个页面链接访问过来的
private String http_user_agent;// 记录客户浏览器的相关信息

private boolean valid = true;// 判断数据是否合法



public String getRemote_addr() {
    return remote_addr;
}

public void setRemote_addr(String remote_addr) {
    this.remote_addr = remote_addr;
}

public String getRemote_user() {
    return remote_user;
}

public void setRemote_user(String remote_user) {
    this.remote_user = remote_user;
}

public String getTime_local() {
    return time_local;
}

public void setTime_local(String time_local) {
    this.time_local = time_local;
}

public String getRequest() {
    return request;
}

public void setRequest(String request) {
    this.request = request;
}

public String getStatus() {
    return status;
}

public void setStatus(String status) {
    this.status = status;
}

public String getBody_bytes_sent() {
    return body_bytes_sent;
}

public void setBody_bytes_sent(String body_bytes_sent) {
    this.body_bytes_sent = body_bytes_sent;
}

public String getHttp_referer() {
    return http_referer;
}

public void setHttp_referer(String http_referer) {
    this.http_referer = http_referer;
}

public String getHttp_user_agent() {
    return http_user_agent;
}

public void setHttp_user_agent(String http_user_agent) {
    this.http_user_agent = http_user_agent;
}

public boolean isValid() {
    return valid;
}

public void setValid(boolean valid) {
    this.valid = valid;
}


@Override
public String toString() {
    StringBuilder sb = new StringBuilder();
    sb.append(this.valid);
    sb.append("\001").append(this.remote_addr);
    sb.append("\001").append(this.remote_user);
    sb.append("\001").append(this.time_local);
    sb.append("\001").append(this.request);
    sb.append("\001").append(this.status);
    sb.append("\001").append(this.body_bytes_sent);
    sb.append("\001").append(this.http_referer);
    sb.append("\001").append(this.http_user_agent);
    return sb.toString();

}
}

b)定义一个parser用来解析过滤web访问日志原始记录
public class WebLogParser {
public static WebLogBean parser(String line) {
WebLogBean webLogBean = new WebLogBean();
String[] arr = line.split(” “);
if (arr.length > 11) {
webLogBean.setRemote_addr(arr[0]);
webLogBean.setRemote_user(arr[1]);
webLogBean.setTime_local(arr[3].substring(1));
webLogBean.setRequest(arr[6]);
webLogBean.setStatus(arr[8]);
webLogBean.setBody_bytes_sent(arr[9]);
webLogBean.setHttp_referer(arr[10]);

        if (arr.length > 12) {
            webLogBean.setHttp_user_agent(arr[11] + " " + arr[12]);
        } else {
            webLogBean.setHttp_user_agent(arr[11]);
        }
        if (Integer.parseInt(webLogBean.getStatus()) >= 400) {// 大于400,HTTP错误
            webLogBean.setValid(false);
        }
    } else {
        webLogBean.setValid(false);
    }
    return webLogBean;
}

public static String parserTime(String time) {

    time.replace("/", "-");
    return time;

}

}

c) mapreduce程序
public class WeblogPreProcess {

static class WeblogPreProcessMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Text k = new Text();
    NullWritable v = NullWritable.get();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();
        WebLogBean webLogBean = WebLogParser.parser(line);
        if (!webLogBean.isValid())
            return;
        k.set(webLogBean.toString());
        context.write(k, v);

    }

}

public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf);

    job.setJarByClass(WeblogPreProcess.class);

    job.setMapperClass(WeblogPreProcessMapper.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    job.waitForCompletion(true);

}

}

MapReduce处理日志框架

最近完成了日志处理框架,由于日志也是文本,不需要自定义读取接口(图像需要)。故主要工作就是将日志格式进行解析和对日志要进行什么操作。 在map函数中,调用编写的日志解析接口实现对每一条日志的解析,然...
  • dcxhun3
  • dcxhun3
  • 2016年03月22日 17:05
  • 663

Hadoop 2.6 日志文件和MapReduce的log文件研究心得

学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来...
  • infovisthinker
  • infovisthinker
  • 2015年04月29日 18:30
  • 6972

web日志预处理(hadoop java)

web日志预处理 1、需求: 对web访问日志中的各字段识别切分 去除日志中不合法的记录 根据KPI统计需求,生成各类访问请求过滤数据   2、实现代码: a) 定义一个bean,用来记...
  • m0_37786726
  • m0_37786726
  • 2018年01月23日 21:56
  • 213

Hadoop-web日志信息挖掘MapReduce简单应用以及代码下载

结合上面两篇博文的内容,首先提一下hadoop的安装和配置。 Hadoop-利用java API操作HDFS文件 Hadoop-MapReduce初步应用-统计单词个数 上面两篇文章中提到了如何...
  • u010156024
  • u010156024
  • 2015年12月02日 15:10
  • 2787

基于MapReduce的海量Web日志分析

转载出处: http://blog.fens.me/hadoop-mapreduce-log-kpi/ 前言 Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访...
  • jiangsanfeng1111
  • jiangsanfeng1111
  • 2015年05月05日 09:05
  • 850

hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)

刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理。我...
  • zfszhangyuan
  • zfszhangyuan
  • 2016年09月13日 15:41
  • 4773

web日志挖掘过程

整体流程参考下图: 1、数据预处理阶段      根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并、最后转换为用户会话文件。该阶段是Web访问信息挖掘最关键的阶段,...
  • u014408670
  • u014408670
  • 2015年03月05日 21:09
  • 990

python调用mrjob实现hadoop的mapreduce日志解析

咱们一般写mapreduce是通过java和streaming来写的,身为pythoner的我, java不会,没办法就用streaming来写mapreduce日志分析。 这里要介绍一个 ...
  • u010970855
  • u010970855
  • 2014年02月01日 17:33
  • 584

如何获取Hadoop MapReduce下的日志

如何获取Hadoop MapReduce中在Yarn下运行的map任务和reduce任务的日志输出: 1、首先,需要明确一个概念,就是map任务和reduce任务是在cluster node上运行的...
  • DSLZTX
  • DSLZTX
  • 2015年06月10日 15:41
  • 3018

如何查看mapreduce日志

hadoop代码,由main开始呼出map和reduce的, 在main里面写system.out是可以得到输出内容的, 但是在map和reduce中就没那么简单了。 执行中的log能看到,但是...
  • weixin_36630015
  • weixin_36630015
  • 2017年02月19日 22:17
  • 175
收藏助手
不良信息举报
您举报文章:mapreduce web日志预处理
举报原因:
原因补充:

(最多只允许输入30个字)