Spark算子[12]：groupByKey、cogroup、join、lookup 源码实例详解

最新推荐文章于 2022-11-27 20:14:24 发布

VIP文章生命不息丶折腾不止

最新推荐文章于 2022-11-27 20:14:24 发布

阅读量1.2k

点赞数 1

分类专栏： spark 文章标签： spark 源码实例

本文链接：https://blog.csdn.net/leen0304/article/details/78793313

版权

groupByKey

源码

/**
 * 将RDD的每个key的values分组为一个单独的序列，并且每个组内的元素的排序不定
 *
 * @note groupByKey很消耗资源，如果要对每个Key的values进行聚合(比如求和或平均值)，
 * 用 `aggregateByKey`或者`reduceByKey` 代替，将会更节省性能。
 *
 * @note 在当前实现的情况下，groupByKey必须能够在内存中保存所有（K,V）对，
 * 如果一个key的values太多，将会产生OutOfMemoryError
 */

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] = self.withScope {
  // groupByKey不应该使用map side combine ，mapSideCombine = false
  // 因为map side combine 并不会减少数据的shuffle次数，
  // 并且要求将map side 的数据放入一张hash表中，导致 old gen中有更多的对象；
  val createCombiner = (v: V) => CompactBuffer(v)
  val mergeValue = (buf: CompactBuffer[V], v: V) => buf += v
  val mergeCombiners = (c1: CompactBuffer[V], c2: CompactBuffer[V]) => c1 ++= c2
  val bufs = combineByKeyWithClassTag[CompactBuffer[V]](
    createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)
  bufs.asInstanceOf[RDD[(K, Iterable[V])]]
}

def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

Java案例

public static void groupByKey() {
    SparkConf conf = new SparkConf().setAppName("groupByKey").setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);
    List<Tuple2<String, Integer>> scoreList = Arrays.asList(
            new Tuple2<<

最低0.47元/天解锁文章

生命不息丶折腾不止

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark算子[12]：groupByKey、cogroup、join、lookup 源码实例详解

groupByKey源码/** * 将RDD的每个key的values分组为一个单独的序列，并且每个组内的元素的排序不定 * * @note groupByKey很消耗资源，如果要对每个Key的values进行聚合(比如求和或平均值)， * 用 `aggregateByKey`或者`reduceByKey` 代替，将会更节省性能。 * * @note 在当前实现的情况下，groupByK
复制链接

扫一扫