MapReduce应用开发简单筛选日志

最新推荐文章于 2023-06-04 01:12:30 发布

sherld

最新推荐文章于 2023-06-04 01:12:30 发布

阅读量790

点赞数

分类专栏： mapreduce Hadoop 文章标签： eclipse hadoop

本文链接：https://blog.csdn.net/sherld/article/details/42271835

版权

Hadoop 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

mapreduce

2 篇文章 0 订阅

订阅专栏

利用hadoop eclipse插件可以方便的开发MapReduce程序，下面是一个简单的提取日志信息的示例，主要将日志中第一列、第二列和第六列中的信息提取出来，在代码中主要开发map的程序，reduce的使用hadoop的默认程序

日志信息

现有一批路由日志，需要提取MAC地址和时间，删去去他内容

算法实现

下面程序实现这一功能

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;


public class RouteFilter extends Configured implements Tool {
	public static String ct = null;
	
	public static class Map extends Mapper<LongWritable, Text, NullWritable, Text> {
		
		public void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException {
			String line = value.toString();
			
			try {
				String[] lineSplit = line.split(" ");
				String month = lineSplit[0];
				String day = lineSplit[1];
				String mac = lineSplit[6];
				Text out = new Text(month + " " + day + " " + mac);
				
				context.write(NullWritable.get(), out);
			} catch (ArrayIndexOutOfBoundsException e) {
				context.getCounter("Error_Finder", ct).increment(1);
				return;
			}			
		}
	}
	
	public int run(String[] args) throws Exception {
		Configuration conf = getConf();
		
		Job job = new Job(conf, "Route_filter");
		job.setJarByClass(RouteFilter.class);
		
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.setMapperClass(Map.class);
		job.setOutputFormatClass(TextOutputFormat.class);
		job.setOutputKeyClass(NullWritable.class);
		job.setOutputValueClass(Text.class);
		
		job.waitForCompletion(true);
		
		return job.isSuccessful() ? 0 : 1;
	}
	
	public static void main(String[] args) throws Exception {
		int res = ToolRunner.run(new Configuration(), new RouteFilter(), args);
		System.exit(res);		
	}
}

因为有两个参数传入，所以不能直接运行，需要在目录树中的对应文件点击右键选择Run As->Run Configurations，点击之后出现弹窗，若左侧Java Application目录下没有该项目，则点击右键选择New，然后选中该项目后，选择右侧中Arguments这一栏，在Program arguments框中填入相应的参数，填入相应输入输出路径，以空格分开

我的路径为hdfs://master:9000/user/hadoop/input hdfs://master:9000/user/hadoop/output

补充1：以shell命令方式运行MapReduce程序

由于我自己在虚拟机中配置的三台机子，但是内存不够，在eclipse中运行之后会报错，显示空间不够，无法打开虚拟机。

所以只有手动将写好的程序打成jar包，在linux界面下用shell命令运行。

好像eclipse里面可以直接导出包，不过此处手动打包

1.首先在工程目录下将bin文件打包为jar文件

压缩方式为：jar -cvf filter.jar -C bin/ .

2.运行hadoop jar命令

命令为：hadoop jar filter.jar RouteFilter input output

其中hadoop jar后面第一个参数为已经打包好的jar包，第二个参数为主程序文件，第三个参数为输入路径，第四个参数为输出路径

补充2：HDFS中路径表示

在HDFS中路径以绝对路径为/user/...

之后的第一个参数为你当前用户名，我的用户名为hadoop，那么绝对路径即表示为/user/hadoop/...，后面的可以自己自由添加

不过在敲路径时，hadoop中可以以 ./ 来表示/user/hadoop/这个路径，使用起来比较方便

补充3：关于Map/Reduce输出结果可能出错的问题

当运行一次mapreduce程序之后，会根据相应输入目录中的文件，输出到输出目录中去，此后再次运行该程序hadoop会报错，因为此时输出目录已经存在，若想再次运行，简单的方法将这个已经生成的输出目录删去即可

sherld

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce应用开发简单筛选日志

利用hadoop eclipse插件可以方便的开发MapReduce程序，下面是一个简单的提取日志信息的示例，主要将日志中第一列、第二列和第六列中的信息提取出来，在代码中主要开发map的程序，reduce的使用hadoop的默认程序
复制链接

扫一扫