SparkCore
文章平均质量分 61
聂扶瑶
沟渠明月
展开
-
SparkCore算子(实例)之----实现表格连接(cartesian, cogroup, flatMap)
笛卡尔积 cartesian笛卡尔积就是实现两个表格(数据集)的直接生硬拼接,具体过程为:对于左表的每一行数据,去拼接右表的每一行数据,将结果直接拼接。由于笛卡尔积的连接结果与连接顺序无关,即:没有驱动表和才从动表的区别,所以采用“左表”、“右表”这样的称呼,“左表”、“右表”只会影响最终的结果集中每一行记录的左右顺序,不影响整个结果的最终意义。首先创建两个RDD数据集: val rd...原创 2018-09-20 11:22:27 · 632 阅读 · 0 评论 -
SparkCore算子(实例)之---- 交集、差集、并集(intersection, subtract, union, distinct, subtractByKey)
1. 交集 intersecion1.1 源码/** * Return the intersection of this RDD and another one. The output will not contain any duplicate * elements, even if the input RDDs did.//交集结果将会去重 * * @note T...原创 2018-09-21 09:35:19 · 2010 阅读 · 0 评论 -
SparkCore算子(实例)之---- action算子
Action Operation概述:SparkCore中的算子可以分为两类:Transformations Operation、Action Operation。在Spark的提交执行过程中,会将RDD及作用于其上的一系列算子(即:RDD及其之间的依赖关系)构建成一个DAG有向无环图。当遇到action类算子的时候就会触发一个job的提交,而Driver程序则会将触发的 job 提交给DA...原创 2018-09-21 17:21:50 · 829 阅读 · 0 评论