Spark中rdd操作
Alex2311111
这个作者很懒,什么都没留下…
展开
-
spark RDD keyvalue操作
问题导读 1、涉及shuffle的操作有哪些? 2、如何理解combineByKey的操作流程? 3、flatMapValues作用是什么?主要在PairRDDFunctions内实现,通过隐式转换使kv形式的RDD具有这个类中的方法。 隐式转换代码如下,在SparkContext中进行,一定要是RDD[(K,V)]型的才可以被转换 implicit def rddToPairRDDFun转载 2015-09-17 00:03:39 · 2862 阅读 · 0 评论 -
Sprak中Shuffle的过程解析
Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。这是我去美国之前的最后一篇,我捞到了最后一张船票。接下来的时间,我要好好准备出国的事情了,练习口语。这篇文章主要是沿着下面几个问题来开展:1、shuffle过程的划分?2、shuffle的中间结果如何存储?3、shuffle的数据如何拉取过来转载 2015-09-17 00:09:45 · 500 阅读 · 0 评论