【Spark Java API】Transformation(13)—zipWithIndex、zipWithUniqueId

本文深入探讨了Spark的两个转换操作:zipWithIndex和zipWithUniqueId。zipWithIndex将RDD元素与其索引结合,而zipWithUniqueId则为每个元素生成唯一的ID,基于分区和元素位置。内容包括官方文档描述、函数原型、源码分析及实例演示。
摘要由CSDN通过智能技术生成

zipWithIndex


官方文档描述:

Zips this RDD with its element indices. The ordering is first based on the partition index and then the ordering of items within each partition. So the first item in the first partition gets index 0, and the last item in the last partition receives the largest index. This is similar to Scala's zipWithIndex but it uses Long instead of Int as the index type.This method needs to trigger a spark job when this RDD contains more than one partitions.

函数原型:

def zipWithIndex(): JavaPairRDD[T, JLong]

该函数将RDD中的元素和这个元素在RDD中的indices组合起来,形成键/值对的RDD。

源码分析:

def zipWithIndex(): RDD[(T, Long)] = withSco
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值