创建rdd的两个方法
1.指定文件进行创建
val rdd1= sc.textFile(“hdfs://hlm1:9000/user/spark”)
2.使用parallelize进行创建
2.1传递Seq作为参数
val rdd2 = sc.parallelize(Seq((“xiaoli”,18),(“xiaoli1”,19),(“xiaoli2”,20),(“xiaoli3”,21)))
2.2传递Array作为参数
val rdd3 = sc.parallelize(Array((“xiaoli”,18),(“xiaoli1”,19),(“xiaoli2”,20),(“xiaoli3”,21)))
2.3传递List作为参数
val rdd4 = sc.parallelize(List((“xiaoli”,18),(“xiaoli1”,19),(“xiaoli2”,20),(“xiaoli3”,21)))
2.4makeRDD
val rdd5 = sc.makeRDD(List(1,2,3,4))底层是parallelize的方式
( List(“bj”,“sh”,“tj”) join RDD )