Hadoop中自定义计数器

本文档记录了在Hadoop 0.20.2环境下,如何在Linux操作系统上自定义计数器来统计MapReduce任务中错误数据出现的次数。作者在尝试从MR代码中优雅地输出统计数字时,发现《hadoop权威指南》中的教程与实际版本不匹配。文章详细介绍了针对0.20.2版本的自定义计数器实现过程。
摘要由CSDN通过智能技术生成

一、环境

1、hadoop 0.20.2

2、操作系统Linux

二、背景

1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。

2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。

3、基于上面2个理由,写个文档,记录一下。

三、实现

1、前提:写入一个文件,规范的是3个字段,“/t”划分,有2条异常,一条是2个字段,一条是4个字段,内容如下:

jim    1       28
kate     0       26
tom    1
kaka     1       22
lily     0       29      22
2、统计处不规范的数据。我没有写reduce,因为不需要输出,代码如下,先看代码
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值