思路简介
直接在Map阶段使用各种规则将数据进行过滤即可,不需使用Reduce阶段。
输入数据
Maven和log4j.properties配置
参考 MapReduce统计流量案例 中的配置
自定义Mapper类实现(WebLogMapper)
package com.test.mapreduce.weblog;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
@Override
protected void map(LongWritable key