MapReduce-在日志中输出函数-计数器

最新推荐文章于 2021-02-20 19:11:06 发布

乐乐今天没bug

最新推荐文章于 2021-02-20 19:11:06 发布

阅读量640

点赞数 6

分类专栏：大数据 spark java 文章标签： MapReduce spark

本文链接：https://blog.csdn.net/qq_41826265/article/details/102980063

版权

java 同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

大数据

13 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

需求

需求还是那个需求啊!!
删除文件中缺失值大于三个的记录,并输出删除行数

分析及实现

数据
编写了一个1.csv用作测试数据,其中满足删除条件即缺失值大于三个的数据有4行,是所有偶数行,进行清洗之后,保留的数据有5行,是所有奇数行,文件具体数据内容如下:

1,l1,l2,l3,l4,l5,l6,l7,l8,l9
2,l1,NULL,NULL,NULL,NULL,l6,l7,l8,l9
3,l1,l2,l3,l4,l5,l6,l7,l8,l9
4,l1,NULL,l3,l4,NULL,NULL,l7,l8,NULL
5,l1,l2,l3,l4,l5,l6,l7,l8,l9
6,NULL,NULL,NULL,l4,l5,l6,l7,l8,NULL
7,l1,l2,l3,l4,l5,l6,l7,l8,l9
8,NULL,l2,NULL,l4,NULL,l6,l7,l8,NULL
9,l1,NULL,l3,l4,l5,l6,l7,l8,l9

MR程序打jar包
啥也不说了,直接放代码:

map.java

import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class t3map extends Mapper<LongWritable, Text,Text, NullWritable> {
    Text text=new Text();

	/* 创建枚举类型
	存放最终输出行数和处理的总行数
	两者差值为被删除的数据的函数
	*/
    public enum FileRecorder{
        OutputRecorder,TotalRecorder
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String v=value.toString();
		
		//对数据进行初始化 并调用函数对数据进行处理
        String rawValue=PreProcessData(v);
        String ret=deleteOver3(splitString(rawValue));
        
        //对所有处理的行数计数
        context.getCounter(FileRecorder.TotalRecorder).increment(1);
        
        //判断数据是否为空
		if(CheckDate(ret)){
            text.set(ret);
		
			//对非空即可输出的数据进行计数
            context.getCounter(FileRecorder.OutputRecorder).increment(1);
            context.write(text,NullWritable.get());
        }


    }
    
	/*
	对数据进行预处理
	清洗去除掉奇奇怪怪的字符串
	*/
    private String PreProcessData(String value){
        String retValue=value.toString();
        retValue=retValue.replace("//t","");
        retValue=retValue.replace("ux5123","");
        retValue=retValue.replace("Xoee","");
        return retValue;
    }
    
    /*
		对数据进行切分,以逗号分隔
	*/
    private String[] splitString(String value){
        String[] v=value.split(",");
        return v;
    }

	/*
		删除缺失值大于三个的数据
		如果缺失值大于三个 就返回空值,否则返回字符串本身的值
	*/

    private String deleteOver3(String[] v){
        int n=0;
        String st="";
        for(int i=0;i<v.length;i++){

            if(v[i].equals("NULL")){
                n++;
            }
            st=st+v[i];
            if(i!=v.length-1){
                st+=",";
            }
        }
        if(n>3){
            return "";
        }
        return st;
    }



	/*
		对字符串进行判断,如果是空的即被删除了,返回false
		以后将不对这行数据进行写入输出处理
		否则返回true 会对数据进行输出处理
	*/
    private boolean CheckDate(String str){
        if(str.equals("")){
            return false;
        }
        return true;
    }

}

driver.java
(因为driver每次写的基本上都差不多所以只对计数器输出那部分做解释)


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class t3driver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(t3driver.class);
        job.setMapperClass(t3map.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        Path path = setPath(job);

        path.getFileSystem(conf).delete(path, true);
        int s=job.waitForCompletion(true) ? 0 : 1;
        //如果程序运行成功了 则s=0
        if(s==0){
			// 定义一个long类型的tot变量 获取计数器里对文件总处理行数的计数并存储
            long tot=job.getCounters().findCounter(t3map.FileRecorder.TotalRecorder).getValue();
            // 定义一个long类型的out变量 获取计数器里对文件输出行数的计数并存储
            long out=job.getCounters().findCounter(t3map.FileRecorder.OutputRecorder).getValue();
            //定义一个long类型的变量del 获取总行数和输出行数的差值 即删除的行数
            long del=tot-out;
            //对删除的行数进行输出
            System.out.println("---\n\ndeleteLine:"+del+"\n\n---");
        }

        System.exit(s);


    }
    private static Path setPath(Job job) throws IOException {
        FileInputFormat.addInputPath(job, new Path("hdfs:/data/spark_data2/h3cu/1.csv"));
        Path path = new Path("hdfs:/data/output");
        FileOutputFormat.setOutputPath(job, path);
        return path;
    }
}

打jar包命名为task2_1.jar

在spark中运行
到spark目录下,运行以下代码

bin/spark-submit --master local --name task --class t3driver /data/task2_1.jar

其中 name是程序名
class是main方法所在的文件的全名
/data/task2_1.jar是jar包所在位置

结果分析

结果截图:
在这里插入图片描述

乐乐今天没bug

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
MapReduce-在日志中输出函数-计数器

目录需求分析及实现结果分析需求需求还是那个需求啊!!删除文件中缺失值大于三个的记录,并输出删除行数分析及实现数据编写了一个1.csv用作测试数据,其中满足删除条件即缺失值大于三个的数据有4行,是所有偶数行,进行清洗之后,保留的数据有5行,是所有奇数行,文件具体数据内容如下:1,l1,l2,l3,l4,l5,l6,l7,l8,l92,l1,NULL,NULL,NULL,NULL,...
复制链接

扫一扫

专栏目录