仅记录自己的spark学习过程
1.RDD创建
2.map和flatMap
3.zip和zipPartitions
zip函数用于将两个RDD组合成kv对形式的RDD,这里默认两个RDD的partition数量和元素数量都相同,否则会抛出异常
def zip(other:RDD[U])(implicit arg0: ClassTag[U]:RDD[(T,U)]
var rdd1 = sc.makeRDD(1 to 5, 2)
var rdd2 = sc.makeRDD(Seq("a","b","c","d","e"),2)
var rdd3 = rdd1.zip(rdd2)
rdd3.collect
目录