背景
今天写了一个UDF函数,算粉丝互动率的参数
def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,interaction_sum:Long):Float={
1.2f
}
当有视频数的时候,interaction_sum除以视频数,否者除以粉丝数;
当写成上述的时候,仍然发现部分数据返回null
资料
参考资料:https://blog.csdn.net/xuejianbest/article/details/81666246
参考资料:https://stackoverrun.com/cn/q/12634034
参考资料:https://stackoverflow.com/questions/42791912/how-to-deal-with-spark-udf-input-output-of-primitive-nullable-type
最后决定,将函数改写为
传入对象java.lang.Long
def getInteractionProportion(platform_type:String, follower_count:java.lang.Long,media_count:java.lang.Long,interaction_sum:java.lang.Long):java.lang.Float={
//TUDO :业务代码
1.2f
}
参考的思路:
问题是null不是斯卡拉诠释一个有效的值(这是后盾值),而这是一个字符串的有效值。 Int等同于java int原语并且必须有一个值。这意味着当值为空时udf不能被调用,因此null仍然存在。
有解决这个方法有两种:
更改函数接受java.lang.Integer中(这是一个对象,可以为null)
如果你不能改变的功能,你可以使用when/otherwise在null的情况下做一些特殊的事情。例如,当(COL( “整数关口”)。参考isNull,someValue中)。否则(原始呼叫)
这方面的一个很好的解释可以发现