1. RDD创建方式
- parallelize 从一个Seq集合创建RDD。
例如: var rdd = sc.
parallelize(1 to 10)
- makeRDD 这种用法和parallelize完全相同
例如: var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.com")),
(11 to 15,Seq("slave013.lxw1234.com","slave015.lxw1234.com")))
var rdd = sc.
makeRDD(collect)
- textFile 从外部存储创建RDD
例如: var rdd = sc.
textFile("hdfs:///tmp/lxw1234/1.txt") //hdfs上获取
var rdd = sc.
textFile("file:///etc/hadoop/conf/core-site.xml") //本地文件系统获取
2. Dataframe创建方式