读者可先粗略地看看流程图,在结合下面的文字详解,希望帮助到大家。
一、流程图
二、针对流程图的详解
1、 Input阶段:
输入file1和file2两个文件:
file1文件里有这些数据:
hadoop hive hbase spark spark
hadoop hadoop hadoop
file2文件里有这些数据:
hue hive hive spark spark
hadoop spark spark hbase
功能 :切片、转换key、value
输出:split1
key value
0 hadoop hive hbase spark spark
10 hadoop hadoop hadoop
split2
key value
0 hue hive hive spark spark
20 hadoop spark spark hbase
2、Map阶段: