1、RDD创建
1. 1从文件系统中加载数据创建RDD
textFile()方法从文件系统中加载数据,创建RDD
文件的URI作为参数,URI可以是:
- 本地文件系统的地址
- 分布式文件系统HDFS的地址
- Amazon S3的地址等等
1.2. 通过并行集合(数组)创建RDD
wordrdd = sc.textFile("hdfs://Host1:9000/sparkdata/word.txt")
wordrdd.collect()
textFile()方法从文件系统中加载数据,创建RDD
文件的URI作为参数,URI可以是:
wordrdd = sc.textFile("hdfs://Host1:9000/sparkdata/word.txt")
wordrdd.collect()