Spark DataFrame添加自增ID

木子民

于 2024-01-22 11:25:21 发布

阅读量551

点赞数 9

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_42278668/article/details/135743822

版权

本文介绍了在ApacheSparkDataFrame中添加自增ID的三种方式：1)使用monotonically_increasing_id()快速生成从0开始的递增序列；2)通过zipWithIndex算子结合Row合并实现；3)row_number()函数，但需注意在大数据量下可能引发内存溢出。

摘要由CSDN通过智能技术生成

给DataFrame添加自增ID三个方式

1. 通过monotonically_increasing_id()函数进行添加

dataFrame.withColumn("id",monotonically_increasing_id())

此方法最快捷，序列从0开始自增

2. 通过zipWithIndex算子进行添加

    val schemaType = resDF.schema.add(StructField("id", LongType))
    val dfRDD = resDF.rdd.zipWithIndex()
    val resRDD = dfRDD.map(rdd => Row.merge(rdd._1, Row(rdd._2)))
    val addIndexDF = spark.createDataFrame(resRDD, schemaType)

3.通过row_number()进行添加

dataFrame.withColumn("id", row_number().over())

注意：此方法只会让数据在一个partition中进行，在大量数据情况下，会发送oom

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木子民

关注关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Spark DataFrame添加自增ID

此方法最快捷，序列从0开始自增。
复制链接

扫一扫

spark DataFrame新增一列id列(单调递增，不重复)的几种方法

liaodaoluyun的博客

01-10

6241

1.使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000).toDF("col1") val df2 = df1.withColumn("id", monoto...

Spark -- 对DataFrame增加一列索引列(自增id列)==》（解决出现ID自增且唯一，但是不呈现自然数递增的问题）

Therefore的专栏

05-26

2654

Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。方式一：利用RDD的 zipWithIndex算子，官网介绍如下 // 在原Schema信息的基础上添加一列 “id”信息 val schema: StructType = dataframe.schema.a

1 条评论您还未登录，请先登录后发表或查看评论

spark 添加自增id

花木兰

08-10

1273

spark

Spark DataFrame 添加自增id

qq_22613769的博客

08-03

506

方法一：利用窗口函数 /** * 设置窗口函数的分区以及排序，因为是全局排序而不是分组排序，所有分区依据为空 * 排序规则没有特殊要求也可以随意填写 */ val spec = Window.partitionBy().orderBy($"lon") val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show() 方法二：利用RDD的 zipWit

spark生成自增ID

Kelovemn的记录

05-22

1368

spark生成自增ID代码 import org.apache.spark.sql.types.{LongType, StructField} val a = splitDF.schema.add(StructField("id_sk",LongType)) val b = splitDF.rdd.zipWithIndex() val c...

pandas和spark dataframe互相转换实例详解

09-17

在大数据处理领域，`pandas` 和 `Spark DataFrame` 是两个重要的工具。`pandas` 是 Python 中用于数据处理和分析的库，而 `Spark DataFrame` 是 Apache Spark 的核心组件，提供了一种分布式数据处理能力。本文将详细...

Spark DataFrame详解.zip

05-29

Spark DataFrame是Apache Spark中的核心数据结构，它是基于RDD（弹性分布式数据集）的进一步抽象，提供了更加高级的数据处理能力。DataFrame在Spark SQL模块下，它结合了SQL查询的便利性和RDD的灵活性，使得数据处理...

Spark DataFrame 演示Demo

05-20

简单一个示例，演示Spark中DataFrame的创建与操作

Spark学习笔记（三）：Spark DataFrame

01-20

Spark DataFrame 是Spark SQL的核心组件，它是Spark处理结构化数据的主要数据结构。DataFrame相较于RDD（弹性分布式数据集）具有显著的优势，因为它提供了更强的类型安全和更丰富的优化。DataFrame的引入使得Spark更...

Spark DataFrame

03-07

详细介绍了基于RDD的DataFrame数据结构以及操作接口。

sparksql_monotonically_increasing_id 生成唯一自增ID

wj1298250240的博客

01-12

2871

#发现有重复的ID，我们可能需要重新给每行数据分分配唯一的新的ID来标示它们 # 增加一个新列 df.withColumn('new_id', fn.monotonically_increasing_id()).show() #withColums 新增一列 #monotonically_increasing_id 生成唯一自增ID +---+------+------+---+------+--...

spark中monotonically_increasing_id的坑

like_red的博客

12-07

7051

日常工作中因为获取到的交互矩阵中user是string的，所以需要转换成long或int的unique id。本来以为发现了一个非常好用的函数monotonically_increasing_id，再join回来就行了，直接可以实现为： import org.apache.spark.sql.functions.monotonically_increasing_id userdf = df.s...

spark实现自增列

hanxiaohei99的博客

06-19

2316

https://www.cnblogs.com/itboys/p/9762808.html //dataframe新增一列方法1，利用createDataFrame方法 val trdd = input.select(targetColumns).rdd.map(x=>{ if (x.get(0).toString().toDouble > critValueR || x.ge...

记一次使用SPARK生成自增ID的解决方案

genius0182的专栏

08-03

7866

在这个项目中遇到的一个问题，由于数据库使用的是GREENPLUM，GREENPLUM提供的SPARK驱动是使用的先生成外部表，然后在使用INSERT 表名 SELECT * FROM 外部表的方式方法导入数据的。并且这种方式不支持自增ID。于是我们开始尝试使用SPARK或其他方式生成ID。 1、使用REDIS生成自增ID。优点：使用REDIS的INCNY实现自增，并且没有并发问题，REDIS...

spark 构建自增id列遇到的问题及解决方法

王天一的博客

04-17

969

使用场景在为总行数为2400的单字段机构列表创建递增的id列时如图：在使用如下代码时 // 使用 monotonically_increasing_id()函数构建自增id列 val lin5 =sc.textFile("file:///spark//headings//unitName1.txt") .toDF("unit_name") .withColumn(...

PySpark DataFrame 添加自增 ID

weixin_43668299的博客

11-27

3575

在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实现，或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。下面呢就介绍三种实现方式。创建 DataFrame 对象 from pyspark.sq...

SparkSql 动态添加一列递增序列

南风知我意

03-30

1005

SparkSql 动态添加一列递增序列

Spark中便捷生成全局唯一自增ID

yukimojo的博客

03-11

3523

总体思路利用spark RDD API所提供的的zipWithIndex() 和 zipWithUniqueId()生成唯一ID，两者的区别如下。 zipWithIndex() 首先基于分区索引排序，然后是每个分区中的项的排序。所以第一个分区中的第一项得到索引0，第二个分区的起始值是第一个分区的最大值。从0开始。分区内id连续。会触发spark job。 zipWithUnique...

spark dataframe与pandas dataframe

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交