Spark 百分位计算

本文探讨了在Spark中进行百分位数计算的两种方法。第一种方法是传统的排序+索引方式,虽然简单但效率较低,尤其在数据重复率高的情况下。第二种方法针对这种情况,通过遍历和去重减少计算量,适用于数据重复且去重后规模不大的场景。通过实例解释了如何在数据总量和百分位数基础上找到对应的值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用spark进行百分位计算

目前网上较普遍的方案是对所有原始数据进行排序后,取第百分位数的值,简单有效,但需要对所有数据进行排序,在实际使用场景上,更多的情况是待排序的批量数据中大部分是重复,能否去掉重复数据的排序呢?

百分位计算方式1

stackoverflow关于百分位计算

  1. 对数据进行排序
  2. 为排序号的数据建立索引
  3. 转成“索引-数据”键值对
  4. 计算数据总量
  5. 计算百分位位置
  6. 查找数据
int count=javaRdd.count();
JavaPairRDD<Long, Long> sortedIndexedRDD = javaRdd.sortBy(rt -> rt, true, numPartitions)
            .zipWithIndex()
            .mapToPair(Tuple2::swap);
 Long p95=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值