MapReduce设计模式总结

最新推荐文章于 2021-08-23 19:04:33 发布

剑儒

最新推荐文章于 2021-08-23 19:04:33 发布

阅读量2.1k

点赞数

分类专栏： BigData_ 软件利器文章标签：云平台设计模式大数据 java mapreduce

本文链接：https://blog.csdn.net/suixinsuoyuwjm/article/details/23038931

版权

MapReduce中的两表join方案简介

1. 概述

在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在Hadoop中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。

2. 常见的join方法介绍（假设要进行join的数据分别来自File1和File2）

2.1reduce side join（常规模式：在reduce端进行join操作）

reduceside join是一种最简单的join方式，其主要思想如下：

在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,比如：tag=1表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。

在reduce阶段，reduce函数获取key相同的来自File1和File2文件的valuelist，然后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的连接操作。

实例分析：假设我们有两个数据文件如下所示：

代码实现：

publicclass MyJoin{

public static class MapClass extendsMapper<LongWritable, Text, Text, Text>{

//最好在map方法外定义变量，以减少map计算时创建对象的个数

private Text key = new Text();

private Text value = new Text();

private String[] keyValue = null;

@Override

protected void map(LongWritable key,Text value, Context context)throws IOException, InterruptedException{

//采用的数据输入格式是TextInputFormat，文件被分为一系列以换行或者制表符结束的行

//key是每一行的位置（偏移量,LongWritable类型），

//value是每一行的内容,Text类型，所有我们要把key从value中解析出来

keyValue =value.toString().split(",", 2);

this.key.set(keyValue[0]);

this.value.set(keyValue[1]);

context.write(this.key,this.value);

}

publicstatic class Reduce extends Reducer<Text, Text, Text, Text> {

//最好在reduce方法外定义变量，以减少reduce计算时创建对象的个数

private Text value = new Text();

@Override

protected void reduce(Text key,Iterable<Text> values, Context context) throws IOException,InterruptedException{

StringBuilder valueStr = newStringBuilder();

//values中的每一个值是不同数据文件中的具有相同key的值

//即是map中输出的多个文件相同key的value值集合

for(Text val : values){

valueStr.append(val);

valueStr.append(",");

}

this.value.set(valueStr.deleteCharAt(valueStr.length()-1).toString());

context.write(key, this.value);

}

最低0.47元/天解锁文章

剑儒

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MapReduce设计模式总结

MapReduce中的两表join方案简介1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在Hadoop中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍（假设要进行j
复制链接

扫一扫