Spark
文章平均质量分 96
整理 Spark 出 Spark 的一些基础知识
bluedraam_pp
不是有希望才坚持,是坚持才有希望
展开
-
Spark的数据结构——RDD
在 compute 中并没有从依赖中取出迭代器,而是调用了 ShuffleManager#getReader 方法,这是因为 combineByKey 是做分区操作的,所以要将相同 key 的数据通过网络发送到不同的机器上,其实就是 Map-Reduce 计算引擎的 shuffle 过程,这里也是一样的,这也是 ShuffleRDD 名称的由来。还有更重要的一点,就是第二个特征,作用在分区上的函数,RDD 加上 PairRDDFunction 上的函数有很多,可以在上一篇。我们只捡能说明问题的就行了。原创 2024-03-13 14:50:49 · 752 阅读 · 0 评论 -
Spark 核心API
这两个函数是 PairRDDFunctions 的匿名类中的函数,从 PairRDDFunctions 的名称中可以知道,PairRDDFunctions 是真的键值对的,也就是说 RDD 中的数据是键值对的时候,我们可以调 PairRDDFunctions 的函数,scala 这个功能好像类的被动技能。action 算子是真正出发计算的算子,在 action 算子之前, 所有的算子就像流水线上的一个工序,按照我们想要的结果设置好了加工模具,action 才能够决一个 job 的开始。就看一下它的入参吧。原创 2024-03-08 08:57:31 · 1161 阅读 · 0 评论