Spark之UDF失效

在Spark项目中,遇到使用UDF处理DataFrame时,若输入字段存在null值导致UDF失效的问题。原因是catalyst在检查字段类型时,对于不可空原生类型且输入值为null时,会直接返回null。解决方案包括将字段定义为可空的java包装类型或改用when函数替代UDF进行转换操作。
摘要由CSDN通过智能技术生成

背景

项目里需要对一个DataFrame,根据一个字段(country_id)新建出另一个字段(new_country_id),因此采用withColumn + udf的方式。但是country_id字段有null值,这使得udf失效。

代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.LongType


object Main {
   
  def main(args: Array[String]): Unit = {
   
    val spark = new SparkSession.Builder().appName("planner")
      .master("local[*]")
      .config("spark.driver.host", "127.0.0.1")
      .getOrCreate()
    val myUDF = udf((countryID: Long) => {
   
      3L
    })
    import spark.implicits._
    val myDF = spark.sparkContext.parallelize(
      Seq(1L, 2L)
    ).toDF("id")
      .withColumn("country_id", when($"id" === 1 , lit(null).cast(LongType)).otherwise(lit(1)))
      .withColumn("new_country_id", myUDF($"country_id"))
    myDF.show(false)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值