hadoop 多数据源连接之DataJoin_利用datajoin进行数据连接,其中作为不同数据源的连接键的是-CSDN博客

本文链接：https://blog.csdn.net/weiweiyixiaocsdn/article/details/45457461

一个MapReduce任务很可能访问和处理两个甚至多个数据集，在关系型数据库中，这将是两个或者多个表的连接，但是Hadoop系统没有关系型数据库中那样强大的连接处理功能，因此处理复杂一些。一般来讲，hadoop可以采用这几种数据连接方式：

1采用DataJoin类库实现Reduce端连接的方法

2 用全局文件复制实现Map端连接方法

3 带Map端过滤的Reduce端连接方法

Hadoop的Mapreduce框架提供了一种较为通用的多数据源连接方法，该方法用DataJoin类库为程序员提供了完成数据连接所需的编程框架和接口，其处理方法如下：

为了完成不用数据源的连接操作，我们必须给每个数据源制定一个标签（tag），用来区分数据，就像关系型数据库中表名一样，这里我们需要实现 Text generateInputTag(String inputFile)方法；

另外，为了进行连接操作，我们必须知道连接的主键是什么，类似于关系型数据库中的key，因此我们需要指定groupKey，这里我们需要实现 Text generateGroupKey(TaggedMapOutput aRecord)

然后在Map端我们需要把原始数据包装成为一个带标签的数据记录，方便shuffle和Reduce端执行笛卡尔积，所以我们需要实现 TaggedMapOutput generateTaggedMapOutput(Object value);

总结一下Map处理过程：

Datajoin类库首先提哦功能管理一个抽象基类DataJoinMapperBase，该基类实现了map()方法，帮助程序员对每个数据源下的记录生成一个代标签的数据记录对象。Map端处理过程中，需要指定标签tag和Groupkey,然后包装成为带标签的数据记录对象，在shuffle过程中，这些GroupKey相同的记录被分到同一个Reduce节点上。