大数据框架基础入门MapReduce计数器和连接

本文介绍了MapReduce中的计数器机制,包括内置计数器和用户定义的计数器,以及如何在MapReduce中使用计数器来跟踪有效和无效记录。此外,还探讨了MapReduce连接的概念,分为映射端连接和减少端连接,并阐述了各自的执行流程。
摘要由CSDN通过智能技术生成

在MapReduce的计数器是用于收集关于 MapReduce 工作的统计信息的机制。这个信息在MapReduce的作业处理的问题的诊断是很有用的。 计数器类似于将在 map 或 reduce 在代码日志信息中。

通常情况下,这些计数器在一个程序(map 或 reduce)中定义,当一个特定事件或条件(特定于该计数器)发生执行期间递增。计数器是一个很好的应用来从输入数据集跟踪有效和无效的记录。

有两种类型的计数器:

1. Hadoop 内置计数器: 有一些内置计数器存在每个作业中。下面是内置计数器组:

  • MapReduce任务计数器 – 收集任务的具体信息(例如,输入记录的数量)在它的执行期间。
  • 文件系统计数器 – 收集信息像由一个任务读取或写入的字节数
  • FileInputFormat计数器 – 收集通过FileInputFormat读取的字节数的信息
  • FileOutputFormat计数器 – 收集的字节数量的信息通过 FileOutputFormat 写入
  • Job 计数器- 这些计数器使用 JobTracker。它们收集统计数据包括如,任务发起了作业的数量。

2. 用户定义的计数器

除了内置的计数器,用户可以定义自己的计数器,通过使用编程语言提供了类似的功能。 例如,在 Java 的枚举用于定义用户定义的计数器。

一个MapClass例子使用计数器计算缺失和无效值的数量:

 

publicstaticclassMapClass

            extendsMapReduceBase

            implementsMapper<LongWritable, Text, Text, Text>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值