spark
弱理想
喂马、砍柴、周游世界
展开
-
Spark RDD的动作
Action:对数据集计算后返回一个数值value给驱动程序RDD支持的动作如下:1、reduce(func):通过函数func(接受两个参数,返回一个参数)聚集数据集中的所有元素。这个功能必须可交换且可关联的,从而可以正确地并行执行。2、collect():在驱动程序中,以数组的形式返回数据集的所有元素。通常在使用filter或者其他操作返回一个足够小的数据子集后再使用会比较原创 2015-10-26 14:56:14 · 659 阅读 · 0 评论 -
Spark RDD的转换
RDD中的所有转换都是惰性的,只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。默认情况下,每一个转换过的RDD都会在它执行一个动作是被重新计算。可以使用persist(或者cache)方法,在内存中持久化一个RDD,在这种情况下,Spark将会在集群中保存相关元素,下次查询这个RDD时能更快访问它,也支持在磁盘上持久化数据集,或在集群间复制数据集。RDD支持的转换操作:原创 2015-10-26 11:35:31 · 1415 阅读 · 0 评论