第3章 Spark编程基础
从文件加载数据
从文件系统中加载数据创建RDD——textFile()方法,该方法把文件的URI作为参数
注意:
(1)本地文件系统的路径,必须要保证在所有的worker节点上都有该文件。
(2)textFile()方法的输入参数,可以是文件名,也可以是目录,也可以是压缩文件等。比如,textFile(“/my/directory”), textFile(“/my/directory/.txt”), and textFile(“/my/directory/.gz”).
(3)textFile()方法也可以接受第2个输入参数(可选),用来指定分区的数目。默认情况下,Spark会为HDFS的每个block创建一个分区(HDFS中每个block默认是128MB)。可以提供一个比block数量更大的值作为分区数目,但是,不能提供一个小于block数量的值作为分区数目
操作
转换操作
-
filter(func):筛选出满足函数func的元素,并返回一个新的数据集
eg:
-
map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集
eg:每一次迭代返回一个迭代器