利用UDF对dataframe列数据进行修改


/*

import org.apache.spark.sql.functions._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._

*/


/*

https://stackoverflow.com/questions/34614239/how-to-apply-a-function-to-a-column-of-a-spark-dataframe

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-Column.html

https://www.jianshu.com/p/833b72adb2b6

*/


import org.apache.spark.sql.functions.udf
val df = Seq((1, "jeden"), (2, "dwa"), (3, "jerry"), (0,"tom")).toDF("number", "polish")

scala> df.show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     2|   dwa|
|     3| jerry|
|     0|   tom|
+------+------+



val label_class = udf((x:Int) => if(x>0) 1 else 0)
scala> df.withColumn("number", label_class($"number")).show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     1|   dwa|
|     1| jerry|
|     0|   tom|
+------+------+

scala> val data = df.withColumn("number", label_class($"number"))
data: org.apache.spark.sql.DataFrame = [number: int, polish: string]

scala> data
res3: org.apache.spark.sql.DataFrame = [number: int, polish: string]

scala> data.show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     1|   dwa|
|     1| jerry|
|     0|   tom|
+------+------+

转载于:https://my.oschina.net/kyo4321/blog/2050690

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值