Spark
程序员椰子橙
这个作者很懒,什么都没留下…
展开
-
Spark核心RDD:combineByKey函数详解
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...转载 2018-04-04 15:19:02 · 307 阅读 · 0 评论 -
RDD
1.用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和set)。 1.1读取一个外部数据集 在本书前面的章节中已经见过使用SparkContext.textFile() 来读取文本文件作为一个字符串RDD 的示例. lines = sc.textFile("README.md") 1.2在驱动器程序中对一个集合进行并行化。 创建RDD...原创 2019-06-03 20:46:39 · 369 阅读 · 0 评论