解决Spark窗口统计函数rank()、row_number()、percent_rank()不能忽略空值问题

最新推荐文章于 2024-04-14 20:12:48 发布

英国老鼠_

最新推荐文章于 2024-04-14 20:12:48 发布

阅读量4.4k

点赞数

分类专栏：大数据Spark/SQL/MR

本文链接：https://blog.csdn.net/hwj_wayne/article/details/104070709

版权

目录【问题背景】【解决方法1：计算空值占比、非空排序最小值，对结果进行映射】【解决方法2：将排序列单独选出来，filter空值后再排序】【解决方法3：进行两次排序，根据两次排序结果计算最终结果】【优缺点对比】【解决方法推荐】【问题背景】假如我们手头上有100w篇文章，想根据阅读量、点赞率对文章进行评分（阅读量>1000时，点赞率才有效）。这里拿5篇文章作为例子...

摘要由CSDN通过智能技术生成

【问题背景】

【解决方法1：计算空值占比、非空排序最小值，对结果进行映射】

【解决方法2：将排序列单独选出来，filter空值后再排序】

【解决方法3：进行两次排序，根据两次排序结果计算最终结果】

【优缺点对比】

【解决方法推荐】

【问题背景】

假如我们手头上有100w篇文章，想根据阅读量、点赞率对文章进行评分（阅读量>1000时，点赞率才有效）。这里拿5篇文章作为例子，构造一个三列的dataFrame：msg_id（文章ID）, like_rate（点赞率）, read_cnt（阅读量），取值为：

对like_rate进行percent_rank()，从文章m1到m5，

期望的结果是：null, null, 0.0, 0.5, 1.0

实际的结果是：0.0, 0.0, 0.5, 0.75, 1.0

空值也参与到排序里面去了，得不到预期的结果。如果99%的文章的点赞率字段都为空，会使得有点赞率的文章的点赞率排序结果挤在[0.99, 1.0]，没点赞率的文章得分全为0，不同点赞率的文章得分没有区分性。附上此例子代码：

package high_quality._history

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

object test {

  def main(args: Array[String]) {

    Logger.getRootLogger.setLevel(Level.ERROR)
    val spark = SparkSession.builder().master("local[*]").getOrCreate()
    import spark.implicits._

    var df = Seq(("m1", 0.4, 100), ("m2", 0.5, 200), ("m3", 0.1, 3000), ("m4", 0.2, 4000), ("m5", 0.3, 2000))
      .toDF("msg_id", "like_rate", "read_cnt")
      .withColumn("like_rate", when($"read_cnt" > 1000, $"like_rate"))
      .withColumn("rank1", percent_rank().over(Window.orderBy("like_rate")))
    df.orderBy("msg_id").show()

  }
}

【解决方法1：计算空值占比、非空排序最小值，对结果进行映射】

看完上述例子，相信大家都能想到：将得分为0的文章，得分改为0.5；将得分>0的文章，通过 (x-0.99) / (1 - 0.99)的方式便能映射到[0, 1]区间上。

问题的关键就是要知道非空的数据量有多大，可以计算点赞率非空的数据的最小排序取值，也可以直接统计取值为空的数据量：

（1）计算点赞率非空数据的最小取值

    df.persist()

    // 计算点赞率非空数据的排序最小值
    val min_rank_like_rate = df
      .withColumn("tmp_rank", when($"rank1" > 0, $"rank1"))
      .select(min("tmp_rank")).rdd.collect()(0)(0).toString.toDouble
    // 取值缩放
    df = df
      .withColumn("rank2", when($"rank1" === 0, 0.5).
        otherwise(($"rank1" - min_rank_like_rate) / (1 - min_rank_like_rate)))
    df.show()

最低0.47元/天解锁文章

英国老鼠_

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
解决Spark窗口统计函数rank()、row_number()、percent_rank()不能忽略空值问题

目录【问题背景】【解决方法1：计算空值占比、非空排序最小值，对结果进行映射】【解决方法2：将排序列单独选出来，filter空值后再排序】【解决方法3：进行两次排序，根据两次排序结果计算最终结果】【优缺点对比】【解决方法推荐】【问题背景】假如我们手头上有100w篇文章，想根据阅读量、点赞率对文章进行评分（阅读量>1000时，点赞率才有效）。这里拿5篇文章作为例子...
复制链接

扫一扫