8. 常用的Actions操作
T reduce(Function2<T,T,T> f) 使用指定的函数f聚合数据集中的元素,该函数把数据集中的每2个元素聚合成一个,一直递归直到得出最后一个元素
java.util.List<T> collect() 以List形式返回数据集的所有元素到驱动程序节点,通常用于filter或其它返回足够少数据的操作之后
long count() 返回数据集中元素的个数
T first() 返回数据集中的第一个元素,类似于take(1)
java.util.List<T> take(int num) 返回数据集中的前N个元素
java.util.List<T> takeSample(boolean withReplacement,int num,long seed) 对数据集随机抽样,返回一个包含num个随机抽样元素的List,参数withReplacement可以选择是否用随机数进行替换,seed用于指定随机数生成器
java.util.List<T> takeOrdered(int num,java.util.Comparator<T> comp) 返回数据集中经过排序的前N个元素
void saveAsTextFile(String path) 将数据集中的元素以文本文件(或文本文件集合)的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。Spark会对每个元素调用toString方法转换为文本文件中的一行记录
void saveAsObjectFile(String path) 将数据集中的元素以Java序列化的格式保存到指定的路径。这些保存的文件,可以使用SparkContext.objectFile()方法读取
void foreach(VoidFunction<T> f) 对数据集中每的个元素使用函数f进行处理
* Spark RDD的API同时也提供了部分actions的异步操作,例如foreachAsync,该方法立即返回一个FutureAction而不是阻塞直到action的完成
TO BE CONTINUED...O(∩_∩)O
T reduce(Function2<T,T,T> f) 使用指定的函数f聚合数据集中的元素,该函数把数据集中的每2个元素聚合成一个,一直递归直到得出最后一个元素
java.util.List<T> collect() 以List形式返回数据集的所有元素到驱动程序节点,通常用于filter或其它返回足够少数据的操作之后
long count() 返回数据集中元素的个数
T first() 返回数据集中的第一个元素,类似于take(1)
java.util.List<T> take(int num) 返回数据集中的前N个元素
java.util.List<T> takeSample(boolean withReplacement,int num,long seed) 对数据集随机抽样,返回一个包含num个随机抽样元素的List,参数withReplacement可以选择是否用随机数进行替换,seed用于指定随机数生成器
java.util.List<T> takeOrdered(int num,java.util.Comparator<T> comp) 返回数据集中经过排序的前N个元素
void saveAsTextFile(String path) 将数据集中的元素以文本文件(或文本文件集合)的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。Spark会对每个元素调用toString方法转换为文本文件中的一行记录
void saveAsObjectFile(String path) 将数据集中的元素以Java序列化的格式保存到指定的路径。这些保存的文件,可以使用SparkContext.objectFile()方法读取
void foreach(VoidFunction<T> f) 对数据集中每的个元素使用函数f进行处理
* Spark RDD的API同时也提供了部分actions的异步操作,例如foreachAsync,该方法立即返回一个FutureAction而不是阻塞直到action的完成
TO BE CONTINUED...O(∩_∩)O