利用hadoop eclipse插件可以方便的开发MapReduce程序,下面是一个简单的提取日志信息的示例,主要将日志中第一列、第二列和第六列中的信息提取出来,在代码中主要开发map的程序,reduce的使用hadoop的默认程序
日志信息
现有一批路由日志,需要提取MAC地址和时间,删去去他内容
算法实现
下面程序实现这一功能
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
public class RouteFilter extends Configured implements Tool {
public static String ct = null;
public static class Map extends Mapper<LongWritable, Text, NullWritable, Text> {
public void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException {
String line = value.toString();
try {
String[] lineSplit = line.split(" ");
String month = lineSplit[0];
String day = lineSplit[1];
String mac = lineSplit[6];
Text out = new Text(month + " " + day + " " + mac);
context.write(NullWritable.get(), out);
} catch (ArrayIndexOutOfBoundsException e) {
context.getCounter("Error_Finder", ct).increment(1);
return;
}
}
}
public int run(String[] args) throws Exception {
Configuration conf = getConf();
Job job = new Job(conf, "Route_filter");
job.setJarByClass(RouteFilter.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setMapperClass(Map.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setOutputKeyClass(NullWritable.class);
job.setOutputValueClass(Text.class);
job.waitForCompletion(true);
return job.isSuccessful() ? 0 : 1;
}
public static void main(String[] args) throws Exception {
int res = ToolRunner.run(new Configuration(), new RouteFilter(), args);
System.exit(res);
}
}
因为有两个参数传入,所以不能直接运行,需要在目录树中的对应文件点击右键选择Run As->Run Configurations,点击之后出现弹窗,若左侧Java Application目录下没有该项目,则点击右键选择New,然后选中该项目后,选择右侧中Arguments这一栏,在Program arguments框中填入相应的参数,填入相应输入输出路径,以空格分开
我的路径为hdfs://master:9000/user/hadoop/input hdfs://master:9000/user/hadoop/output
补充1:以shell命令方式运行MapReduce程序
由于我自己在虚拟机中配置的三台机子,但是内存不够,在eclipse中运行之后会报错,显示空间不够,无法打开虚拟机。
所以只有手动将写好的程序打成jar包,在linux界面下用shell命令运行。
好像eclipse里面可以直接导出包,不过此处手动打包
1.首先在工程目录下将bin文件打包为jar文件
压缩方式为:jar -cvf filter.jar -C bin/ .
2.运行hadoop jar命令
命令为:hadoop jar filter.jar RouteFilter input output
其中hadoop jar后面第一个参数为已经打包好的jar包,第二个参数为主程序文件,第三个参数为输入路径,第四个参数为输出路径
补充2:HDFS中路径表示
在HDFS中路径以绝对路径为/user/...
之后的第一个参数为你当前用户名,我的用户名为hadoop,那么绝对路径即表示为/user/hadoop/...,后面的可以自己自由添加
不过在敲路径时,hadoop中可以以 ./ 来表示/user/hadoop/这个路径,使用起来比较方便
补充3:关于Map/Reduce输出结果可能出错的问题
当运行一次mapreduce程序之后,会根据相应输入目录中的文件,输出到输出目录中去,此后再次运行该程序hadoop会报错,因为此时输出目录已经存在,若想再次运行,简单的方法将这个已经生成的输出目录删去即可