Spark DataFrame 添加自增id

最新推荐文章于 2024-07-07 07:15:00 发布

猫猫玩机器学习

最新推荐文章于 2024-07-07 07:15:00 发布

阅读量545

点赞数 1

分类专栏： Scala Spark

本文链接：https://blog.csdn.net/qq_22613769/article/details/119346359

版权

Scala 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Spark

5 篇文章 0 订阅

订阅专栏

方法一：利用窗口函数

    /**
      * 设置窗口函数的分区以及排序，因为是全局排序而不是分组排序，所有分区依据为空
      * 排序规则没有特殊要求也可以随意填写
      */
    val spec = Window.partitionBy().orderBy($"lon")

    val df1 = dataframe.withColumn("id", row_number().over(spec))

    df1.show()

方法二：利用RDD的 zipWithIndex算子

   // 在原Schema信息的基础上添加一列 “id”信息
    val schema: StructType = dataframe.schema.add(StructField("id", LongType))

    // DataFrame转RDD 然后调用 zipWithIndex
    val dfRDD: RDD[(Row, Long)] = dataframe.rdd.zipWithIndex()

    val rowRDD: RDD[Row] = dfRDD.map(tp => Row.merge(tp._1, Row(tp._2)))

    // 将添加了索引的RDD 转化为DataFrame
    val df2 = spark.createDataFrame(rowRDD, schema)

    df2.show()

方法三：

df2 = df.withColumn("id", monotonically_increasing_id)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猫猫玩机器学习

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark DataFrame 添加列总结

主要分享大数据相关的知识，如Spark、Hudi

12-06

2987

我的原创地址：https://dongkelun.com/2021/05/19/localSparkHiveWithKerberos/ 前言因添加列在平时可能会经常用到，但是长时间不用，可能会忘记应该用哪个函数，这样再重新查找比较耽误时间，于是总结代码进行备忘。主要总结：根据现有的列添加添加自增ID 添加一列常量添加当前时间转换为timestamp类型转换为date类型代码 package com.dkl.blog.spark.df import java.util.Date imp

spark 添加自增id

花木兰

08-10

1318

spark

参与评论您还未登录，请先登录后发表或查看评论

spark DataFrame新增一列id列(单调递增，不重复)的几种方法

liaodaoluyun的博客

01-10

6341

1.使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000).toDF("col1") val df2 = df1.withColumn("id", monoto...

摸鱼大数据——Spark SQL——DataFrame详解一

最新发布

weixin_65694308的博客

07-07

1167

DataFrame表示的是一个二维的表。二维表，必然存在行、列等表结构描述信息表结构描述信息(元数据Schema): StructType对象字段: StructField对象，可以描述字段名称、字段数据类型、是否可以为空行: Row对象列: Column对象，包含字段名称和字段值在一个StructType对象下，由多个StructField组成，构建成一个完整的元数据信息。

spark 构建自增id列遇到的问题及解决方法

王天一的博客

04-17

1002

使用场景在为总行数为2400的单字段机构列表创建递增的id列时如图：在使用如下代码时 // 使用 monotonically_increasing_id()函数构建自增id列 val lin5 =sc.textFile("file:///spark//headings//unitName1.txt") .toDF("unit_name") .withColumn(...

spark生成自增ID

Kelovemn的记录

05-22

1385

spark生成自增ID代码 import org.apache.spark.sql.types.{LongType, StructField} val a = splitDF.schema.add(StructField("id_sk",LongType)) val b = splitDF.rdd.zipWithIndex() val c...

Spark DataFrame添加自增ID

weixin_42278668的博客

01-22

648

此方法最快捷，序列从0开始自增。

scala spark dataframe添加序号（id）列

woaitingting1985的博客

03-06

3749

在spark的开发中，经常会出现需要为dataframe添加id列的地方，特别对于一些需要存到关系型数据库中的结果，话不多说，下面直接上代码。 1、初始化： val sparks = SparkSession.builder .master("local[4]") .appName("test1") ...

关于dataframe 中自增行

Mindy_Fan的博客

09-28

关于dataframe 中自增行复制前序某行，即自增相同内容 for j in range(100): in_data=in_data.append(in_data.iloc[0]) #根据实际需求进行切片

PySpark DataFrame 添加自增 ID

weixin_43668299的博客

11-27

3617

在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实现，或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。下面呢就介绍三种实现方式。创建 DataFrame 对象 from pyspark.sq...

【scala】dataframe中增加一列自增id

qq_34335450的博客

11-27

1730

import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ import org.apache.spark.sql._ import org.apache.spark.rdd.RDD val schema: StructType = dataframeA.schema.add(StructField("id", LongType)) // DataFrame转RDD 然后调用 zipWithInde

Spark DataFrame 新增一列的四种方法

给我一点温度

07-22

6890

作为一个学习 Python spark 的菜鸟，刚开始学习 dataframe 的多样化处理有些新奇，对于新增一列的方法，经过多方查询学习，总结了如下四种常用方法，分享给大家。虽然以下语言是用Scala写的，但使用Python的原理也是一样，方法一：利用 createDataFrame 方法，新增列的过程包含在构建 rdd 和 schema 中方法二：利用 withColumn 方法，新增列的过程包含在 udf 函数中方法三：利用 SQL 代码，新增列的过程直接写入 SQL 代码中 ...

spark 写mysql 设置主键_Spark操作dataFrame进行写入mysql，自定义sql的方式

weixin_39933895的博客

12-30

1052

业务场景：现在项目中需要通过对spark对原始数据进行计算，然后将计算结果写入到mysql中，但是在写入的时候有个限制：1、mysql中的目标表事先已经存在，并且当中存在主键，自增长的键id2、在进行将dataFrame写入表的时候，id字段不允许手动写入，因为其实自增长的要求：1、写入数据库的时候，需要指定字段写入，也就是说，只指定部分字段写入2、在写入数据库的时候，对于操作主键相同的记录要实现...

32. 如何在spark Sql里创建自增id字段，作为主键？

元元的李树专栏

11-11

4178

32. 如何在spark Sql里创建自增id字段，作为主键？参考了很多Spark的RDD原生函数，比如zip(),zipWithIndex()，自增id，效率不高。尤其是DataFram转换成RDD，再用zipWithIndex()效率低下。下面我给出一个我认为比较合理的方法，借用row_number函数实现。下面列出我的伪代码：下面给出示例： import org.ap...

Spark -- 对DataFrame增加一列索引列(自增id列)==》（解决出现ID自增且唯一，但是不呈现自然数递增的问题）

Therefore的专栏

05-26

2718

Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。方式一：利用RDD的 zipWithIndex算子，官网介绍如下 // 在原Schema信息的基础上添加一列 “id”信息 val schema: StructType = dataframe.schema.a

Spark -- 对DataFrame增加一列索引列(自增id列)

TheBigBlue的博客

03-17

6194

向导Spark DataFrame 添加自增id利用RDD的 zipWithIndex算子使用SparkSQL的function Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id...

记一次使用SPARK生成自增ID的解决方案

genius0182的专栏

08-03

7895

在这个项目中遇到的一个问题，由于数据库使用的是GREENPLUM，GREENPLUM提供的SPARK驱动是使用的先生成外部表，然后在使用INSERT 表名 SELECT * FROM 外部表的方式方法导入数据的。并且这种方式不支持自增ID。于是我们开始尝试使用SPARK或其他方式生成ID。 1、使用REDIS生成自增ID。优点：使用REDIS的INCNY实现自增，并且没有并发问题，REDIS...

Spark中便捷生成全局唯一自增ID

yukimojo的博客

03-11

3624

总体思路利用spark RDD API所提供的的zipWithIndex() 和 zipWithUniqueId()生成唯一ID，两者的区别如下。 zipWithIndex() 首先基于分区索引排序，然后是每个分区中的项的排序。所以第一个分区中的第一项得到索引0，第二个分区的起始值是第一个分区的最大值。从0开始。分区内id连续。会触发spark job。 zipWithUnique...

SparkSql 动态添加一列递增序列

南风知我意

03-30

1069

SparkSql 动态添加一列递增序列

spark dataframe与pandas dataframe

09-23

spark dataframe与pandas dataframe是两种不同的数据处理工具。Spark DataFrame是Apache Spark中的一种数据结构，它是分布式的、可扩展的数据集合，可用于处理大规模数据。而Pandas DataFrame是一个基于NumPy数组的...