Spark DataFrame导入mysql入库添加自增主键id

Spark DataFrame 添加一个自增主键id

  在使用SparkSQL处理数据的时候,经常需要给全量数据增加一列自增的ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能,所以只能通过其他方式实现,或者转成RDD再用RDD的zipWithIndex算子实现。
下面介绍两种实现方式:

方式一: 利用窗口函数

// 加载数据
val df: DataFrame = session.read.option("header", "true").csv(inPath)
/**
      * 设置窗口函数的分区及排序,因为是全局排序而不是分组排序,所有分区依据为空
      * 排序规则没有特殊要求也可以随意填写
      */
    val spec: WindowSpec = Window.partitionBy().orderBy(col("imo"))
    val result: DataFrame = df.withColumn("id", row_number().over(spec))
    result.show()

该方法的缺点就是在添加自增ID的过程中,会将所有的数据集中到一个分区,会导致性能下降。

WARN [main] - No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.

方法二: 利用RDD的zipWithIndex算子
来自官网的描述
zipWithIndex

// 在原Schema信息的基础上添加一列“id”信息
    val schema: StructType = res.schema.add(StructField("id", LongType))
    
    // DataFrame转RDD, 然后调用 zipWithIndex
    val dfRDD: RDD[(Row, Long)] = res.rdd.zipWithIndex()
    
    // 将id字段合并在一起,merge顺序不可修改,因为添加id的schema字段在最后一个
    val rowRDD: RDD[Row] = dfRDD.map(tp => Row.merge(tp._1,Row(tp._2)))
    
    // 将添加了索引的RDD转化为 DataFrame
    val result: DataFrame = session.createDataFrame(rowRDD, schema)

将结果进行保存到mysql:

val prop =new Properties()
prop.setProperty("user","root")
prop.setProperty("password","root")
result.write.mode(SaveMode.Append).jdbc("jdbc:mysql://localhost:3306/loong","static_recently",prop)

第二种方式高效也简单

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

R_记忆犹新

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值