Hadoop-MapReduce计数器和数据清洗

计数器应用

在这里插入图片描述

数据清洗(ETL)

在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。

简单实操(实际使用会复杂的多,但是基本处理是一致的):

目的:去除日志中字段单词数小于等于20的日志

日志文件中最后一行数据为

在这里插入图片描述

本日志文件有82428行数据。

期望输出的数据:每行字段单词数均大于20;

分析:在Map阶段对输入的数据根据规则进行过滤清洗

Mapper

public class DataCleanMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    @Override
    protected void map (LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();

        // 解析数据
        boolean result = parseLog(line, context);

        if (!result) {
            return;
        }

        context.write(value, NullWritable.get());
    }

    private boolean parseLog (String line, Context context) {

        String[] fileds = line.split(" ");

        if (fileds.length > 20) {
            // 引入计数器
            context.getCounter("map-data-clean", "true").increment(1);
            return true;
        }

        context.getCounter("map-data-clean", "false").increment(1);
        return false;
    }
}

Driver中需要将ReduceTask数量设置为0

// 设置reduceTask的数量为0
job.setNumReduceTasks(0);

运行之后,查看计数器如下:

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值