hadoop编程小技巧（1）---map端聚合

最新推荐文章于 2024-06-28 23:31:29 发布

fansy1990

最新推荐文章于 2024-06-28 23:31:29 发布

阅读量4.3k

点赞数

分类专栏： hadoop 编程

本文链接：https://blog.csdn.net/fansy1990/article/details/37880665

版权

本文介绍了Hadoop编程中的Map端聚合技术，适用于数据可放入内存且仅关心部分数据的场景。通过在Mapper的map和cleanup函数中处理数据，能减少网络传输，提高效率。然而，若用于计算全局Top10单词频率等任务，可能导致结果错误，需注意应用环境。

摘要由CSDN通过智能技术生成

测试hadoop版本：2.4

Map端聚合的应用场景：当我们只关心所有数据中的部分数据时，并且数据可以放入内存中。

使用的好处：可以大大减小网络数据的传输量，提高效率；

一般编程思路：在Mapper的map函数中读入所有数据，然后添加到一个List（队列）中，然后在cleanup函数中对list进行处理，输出我们关系的少量数据。

实例：

在map函数中使用空格分隔每行数据，然后把每个单词添加到一个堆栈中，在cleanup函数中输出堆栈中单词次数比较多的单词以及次数；

package fz.inmap.aggregation;

import java.io.IOException;
import java.util.ArrayList;
import java.util.PriorityQueue;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputForm