Hadoop中两表JOIN的处理方法
参考Hadoop中两表JOIN的处理方法小结1,reduce side join在reduce阶段join。map阶段标记数据来自哪个文件,比如来自file1标记tag=1,来自file2标记tag=2。reduce阶段把key相同的file1的数据和file2的数据通过笛卡尔乘积join在一起。个人理解:举个例子
file1 有{1:'a', 2:'b', 3:'c'}
file2 有{1:'
原创
2016-08-12 15:33:24 ·
2951 阅读 ·
0 评论