背景
在sparkSQL编程过程中,往往需要将字段内容从一种形式映射到另一种形式,如果不满足映射条件,需要将其内容统一映射为null。在这种情况下,我们可能会遇到异常报错java.lang.UnsupportedOperationException: Schema for type Any is not supported
分析
在scala编程过程中,如果条件判断语句(比如if)返回值类型不统一,比如在某种条件下返回值类型为int,而另一种条件下返回值类型为string,这个时候,scala就会将返回值类型统一为父类Any类型。但是sparkSQL中的Dataset字段类型不支持scala语言中的Any类型,故而抛出异常。
解决办法
一种解决思路是,用户在做字段内容映射时,确保映射后的内容类型一致。然而有些场景,我们无法统一映射后内容的类型,这个时候可以借助scala的Option类型来达到目的。假设场景,将学生的英文名映射为中文名,没有中文名的映射为null。
import spark.implicits._
case class Student(id: Long, name: String)
spark.udf.register("en2cn", (en: String) => Map[String, Option[String]]("Han Mei"->Some("韩梅")).getOrElse(en, None))
spark.createDataset(Seq(Student(201314001L, "Han Mei"), Student(201314002L, "Li Lei"))).selectExpr("id", "name", "en2cn(name) as cn_name").show