parallelize
将一个存在的集合,变成一个RDD。这种方式试用于学习spark和做一些spark的测试
第一个参数一是一个 Seq集合
第二个参数分区数
var array = List(1, 2, 3, 4, 5, 6, 7, 8)
var rdd = sc.parallelize(array,3)
1
2
-
makeRDD
只有scala版本的才有makeRDD ,跟parallelize类似。
var array = List(1, 2, 3, 4, 5, 6, 7, 8) var rdd = sc.makeRDD(array) 1 2
-
textFile
从外部存储中读取数据来创建 RDD ,如读取本地D:\log\system.log。
var lines = sc.textFile("file:\\D:\log\system.log")