分区操作
基于分区的操作避免为每个数据元素进行重复的配置工作,让代码只在RDD的每个分区运行一次
数值RDD操作
对数值RDD的统计操作,stats()会一次遍历计算所有统计操作的结果
与外部程序间的管道
1) 可以读写Unix标准流的任何语言,使用pipe()方法将RDD的元素从标准输入流以字符串形式读出,执行任何语言实现的操作后,把结果以字符串的形式写入标准输出流
2) SparkContext.addFile(path),可以构建一个文件列表,让每个工作节点在Spark作业中下载列表中的文件。当作业中的行动操作被触发,各个节点就下载这些文件,在各个节点的SparkFiles.getRootDirectory,或者使用SparkFiles.get(Filename)