spark DataFrame新增一列id列(单调递增，不重复)的几种方法

最新推荐文章于 2024-01-22 11:25:21 发布

liaodaoluyun

最新推荐文章于 2024-01-22 11:25:21 发布

阅读量6.5k

点赞数 2

分类专栏： spark 文章标签： spark dataframe新增一列id列 spark DataFrame spark dataframe新增一列索引列

本文链接：https://blog.csdn.net/liaodaoluyun/article/details/86232639

版权

本文介绍了四种在Spark DataFrame中添加单调递增且不重复的ID列的方法：1) 使用`monotonically_increasing_id()`，不保证全局连续；2) 通过`row_number().over(Window.orderBy(ColName))`实现排序后连续ID，但会改变分区数；3) 转换为RDD使用`zipWithIndex()`或`zipWithUniqueId()`，保持分区数不变；4) 使用map遍历数据生成ID。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。

import org.apache.spark.sql.functions._
val df1 = spark.range(0,1000).toDF("col1")
val df2 = df1.withColumn("id", monotonically_increasing_id())

注意：有多个分区的时候，每个分区里面是单调递增，step为1，分区之间不保证连续，如一共两个分区，0分区id是0-499，1分区id可能99000-99499，甚至更大，最大64bit的integer。

如果想要整体连续，可以先repartition(1),操作完后在repartition(n)

2.使用row_number().over(Window.orderBy(ColName))，生成按某列排序后，新增单调递增，连续的一列。操作完后分区数变为1。id列从1开始。

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number

val df1 = spark.range(0,1000).toDF(&#

最低0.47元/天解锁文章