Spark DF增加一列

最新推荐文章于 2024-03-03 13:07:12 发布

南风知我意丿

最新推荐文章于 2024-03-03 13:07:12 发布

阅读量1.2k

点赞数 1

分类专栏： # Spark-SQL 文章标签： spark scala 大数据

本文链接：https://blog.csdn.net/Lzx116/article/details/125602447

版权

Spark-SQL 专栏收录该内容

24 篇文章 3 订阅

订阅专栏

文章目录

方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中

val trdd = input.select(targetColumns).rdd.map(x=>{
  if (x.get(0).toString().toDouble > critValueR || x.get(0).toString().toDouble < critValueL) 
    Row(x.get(0).toString().toDouble,"F")
  else Row(x.get(0).toString().toDouble,"T")      
  })      
val schema = input.select(targetColumns).schema.add("flag", StringType, true)
val sample3 = ss.createDataFrame(trdd, schema).distinct().withColumnRenamed(targetColumns, "idx")

方法二：利用withColumn方法，新增列的过程包含在udf函数中

val code :(Int => String) = (arg: Int) => {if (arg > critValueR || arg < critValueL) "F" else "T"}
val addCol = udf(code)
val sample3 = input.select(targetColumns).withColumn("flag", addCol(input(targetColumns)))
.withColumnRenamed(targetColumns, "idx")

方法三：利用SQL代码，新增列的过程直接写入SQL代码中

input.select(targetColumns).createOrReplaceTempView("tmp")
val sample3 = ss.sqlContext.sql("select distinct "+targetColname+
    " as idx,case when "+targetColname+">"+critValueR+" then 'F'"+
    " when "+targetColname+"<"+critValueL+" then 'F' else 'T' end as flag from tmp")

方法四：以上三种是增加一个有判断的列，如果想要增加一列唯一序号，可以使用monotonically_increasing_id

//添加序号列新增一列方法4
import org.apache.spark.sql.functions.monotonically_increasing_id
val inputnew = input.withColumn("idx", monotonically_increasing_id)

南风知我意丿

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark DF增加一列

spark sql增加一列方法
复制链接

扫一扫

专栏目录

Spark DF增加一列

文章目录

方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中

方法二：利用withColumn方法，新增列的过程包含在udf函数中

方法三：利用SQL代码，新增列的过程直接写入SQL代码中

方法四：以上三种是增加一个有判断的列，如果想要增加一列唯一序号，可以使用monotonically_increasing_id

“相关推荐”对你有帮助么？