MapReduce应用开发 简单筛选日志

利用hadoop eclipse插件可以方便的开发MapReduce程序,下面是一个简单的提取日志信息的示例,主要将日志中第一列、第二列和第六列中的信息提取出来,在代码中主要开发map的程序,reduce的使用hadoop的默认程序

日志信息

现有一批路由日志,需要提取MAC地址和时间,删去去他内容

算法实现

下面程序实现这一功能
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;


public class RouteFilter extends Configured implements Tool {
	public static String ct = null;
	
	public static class Map extends Mapper<LongWritable, Text, NullWritable, Text> {
		
		public void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException {
			String line = value.toString();
			
			try {
				String[] lineSplit = line.split(" ");
				String month = lineSplit[0];
				String day = lineSplit[1];
				String mac = lineSplit[6];
				Text out = new Text(month + " " + day + " " + mac);
				
				context.write(NullWritable.get(), out);
			} catch (ArrayIndexOutOfBoundsException e) {
				context.getCounter("Error_Finder", ct).increment(1);
				return;
			}			
		}
	}
	
	public int run(String[] args) throws Exception {
		Configuration conf = getConf();
		
		Job job = new Job(conf, "Route_filter");
		job.setJarByClass(RouteFilter.class);
		
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.setMapperClass(Map.class);
		job.setOutputFormatClass(TextOutputFormat.class);
		job.setOutputKeyClass(NullWritable.class);
		job.setOutputValueClass(Text.class);
		
		job.waitForCompletion(true);
		
		return job.isSuccessful() ? 0 : 1;
	}
	
	public static void main(String[] args) throws Exception {
		int res = ToolRunner.run(new Configuration(), new RouteFilter(), args);
		System.exit(res);		
	}
}
因为有两个参数传入,所以不能直接运行,需要在目录树中的对应文件点击右键选择Run As->Run Configurations,点击之后出现弹窗,若左侧Java Application目录下没有该项目,则点击右键选择New,然后选中该项目后,选择右侧中Arguments这一栏,在Program arguments框中填入相应的参数,填入相应输入输出路径,以空格分开
我的路径为hdfs://master:9000/user/hadoop/input hdfs://master:9000/user/hadoop/output

补充1:以shell命令方式运行MapReduce程序

由于我自己在虚拟机中配置的三台机子,但是内存不够,在eclipse中运行之后会报错,显示空间不够,无法打开虚拟机。
所以只有手动将写好的程序打成jar包,在linux界面下用shell命令运行。
好像eclipse里面可以直接导出包,不过此处手动打包

1.首先在工程目录下将bin文件打包为jar文件
压缩方式为:jar -cvf filter.jar -C bin/ .
2.运行hadoop jar命令
命令为:hadoop jar filter.jar RouteFilter input output
其中hadoop jar后面第一个参数为已经打包好的jar包,第二个参数为主程序文件,第三个参数为输入路径,第四个参数为输出路径

补充2:HDFS中路径表示

在HDFS中路径以绝对路径为/user/...
之后的第一个参数为你当前用户名,我的用户名为hadoop,那么绝对路径即表示为/user/hadoop/...,后面的可以自己自由添加
不过在敲路径时,hadoop中可以以 ./ 来表示/user/hadoop/这个路径,使用起来比较方便

补充3:关于Map/Reduce输出结果可能出错的问题

当运行一次mapreduce程序之后,会根据相应输入目录中的文件,输出到输出目录中去,此后再次运行该程序hadoop会报错,因为此时输出目录已经存在,若想再次运行,简单的方法将这个已经生成的输出目录删去即可

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值