hadoop之mapreduce编程实例（系统日志初步清洗过滤处理）

最新推荐文章于 2025-05-02 22:37:56 发布

zfszhangyuan

最新推荐文章于 2025-05-02 22:37:56 发布

阅读量1w

点赞数 4

CC 4.0 BY-SA版权

分类专栏： java hadoop mapreduce 文章标签： hadoop mapreduce mapreduce单机编程实例日志MR处理 hadoop编程

本文链接：https://blog.csdn.net/zfszhangyuan/article/details/52526483

本文介绍了如何在不安装Hadoop集群的情况下进行MapReduce编程，通过一个系统日志清洗的例子，解释了MapReduce的工作原理。Map阶段处理数据， Reduce阶段进行结果整合，所有操作在本地完成。提供了下载Hadoop安装包的链接，并给出了具体的MapReduce代码示例，用于提取日志中的关键字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

刚刚开始接触hadoop的时候，总觉得必须要先安装hadoop集群才能开始学习MR编程，其实并不用这样，当然如果你有条件有机器那最好是自己安装配置一个hadoop集群，这样你会更容易理解其工作原理。我们今天就是要给大家演示如何不用安装hadoop直接调试编程MapReduce函数。

开始之前我们先来理解一下mapreduce的工作原理：

hadoop集群是有DataNode和NameNode两种节点构成，DataNode负责存储数据本身而NameNode负责存储数据的元数据信息，在启动mapreduce任务时，数据首先是通过inputformat模块从集群的文件库中读出，然后按照设定的Splitsize进行Split（默认是一个block大小128MB），通过ReadRecorder（RR）将每个split的数据块按行进行轮询访问结果给到map函数，由map函数按照编程的代码逻辑进行处理，输出key和value。由map到reduce的处理过程中包含三件事情，Combiner（map端的预先处理，相对于map段reduce）Partitioner（负责将map输出数据均衡的分配给reduce）Shulffling&&sort(根据map输出的key进行洗牌和排序，将结果根据partitioner的分配情况传输给指定的reduce)，最后reduce按照代码逻辑处理输出结果（也是key,value格式）。

注意：

map阶段的key-value对的格式是由输入的格式所决定的，如果是默认的TextInputFormat，则每行作为一个记录进程处理，其中key为此行的开头相对于文件的起始位置，value就是此行的字符文本
map阶段的输出的key-value对的格式必须同reduce阶段的输入key-value对的格式相对应

下面是wordcount的处理过程大家来理解一下：

现在我们开始我们的本地MR编程吧

首先我们得去官网下载一个hadoop安装包（本文用的hadoop2.6.0版本，不用安装，我们只要包中jars）

下载链接：https://archive.apache.org/dist/hadoop/common/（下载最多的那个就可以了，版本自己选个）

下面就上MR的代码吧：

package loganalysis;
import java.io.IOException;
import java.util.StringTokenizer;
import java.lang.*;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

 
public class WordCount {
 
  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{
 
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    private String imei = new String();
    private String areacode  = new String();
    private String responsedata = new String();
    private String requesttime = new String();
    private String requestip = new String();

//    map阶段的key-value对的格式是由输入的格式所决定的，如果是默认的TextInputFormat，则每行作为一个记录进程处理，其中key为此行的开头相对于文件的起始位置，value就是此行的字符文本
//    map阶段的输出的key-value对的格式必须同reduce阶段的输入key-value对的格式相对应
    public void map(Object key, Text value, Context context
                    ) throws I