Spark
文章平均质量分 92
未闻小然桑
咱的目标是星辰大海。。。
展开
-
理解Spark RDD中的aggregate函数
针对Spark的RDD,API中有一个aggregate函数,本人理解起来费了很大劲,明白之后,mark一下,供以后参考。 首先,Spark文档中aggregate函数定义如下def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): UAggregate t转载 2017-03-01 16:33:37 · 844 阅读 · 0 评论 -
Spark RDD编程
0. RDD基础 RDD(Resilient Distributed Dataset):弹性分布式数据集 Spark中的RDD其实是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群上的不同节点上。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切的背后,Spark会自动将RDD的数据分发到集群上,并将操作并行化执行。 创原创 2017-02-16 21:58:48 · 1282 阅读 · 0 评论