spark基础与java api介绍
textFile: 可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件
JavaRDD<String> lines = sc.textFile(uri, 1);
union: 合并两个RDD
JavaRDD<String> data1 = sc.textFile( "E:\\1.txt"); JavaRDD<String> data2 = sc.textFile( "E:\\2.txt"); JavaRDD<String> union = data1.union(data2);
saveAsTextFile: 将结果保存到HDFS中
counts.saveAsTextFile (args[1]);
map: JavaRDD<T> -> JavaRDD<U>
JavaRDD<Integer> lineLengths = lines.map(