大数据中位数怎么运算_Spark Scala:用户定义的计算中位数的聚合函数

该博客讨论了如何在Apache Spark中使用Scala自定义用户定义的聚合函数(UDAF)计算数据帧的中位数。作者提供了一个示例数据帧并展示了尝试创建UDAF的代码,但遇到了在`evaluate`方法中需要DataFrame而不是Row的问题。最后,作者给出了使用`percentile_approx`函数的解决方案。
摘要由CSDN通过智能技术生成

我试图找到一种方法来计算给定数据帧的中位数.

val df = sc.parallelize(Seq(("a",1.0),("a",2.0),("a",3.0),("b",6.0), ("b", 8.0))).toDF("col1", "col2")

+----+----+

|col1|col2|

+----+----+

| a| 1.0|

| a| 2.0|

| a| 3.0|

| b| 6.0|

| b| 8.0|

+----+----+

现在我想做那样的事情:

df.groupBy( “COL1”).AGG(calcmedian( “COL2”))

结果应如下所示:

+----+------+

|col1|median|

+----+------+

| a| 2.0|

| b| 7.0|

+----+------+`

因此calcmedian()必须是UDAF,但问题是,UDAF的“evaluate”方法只需要一行,但我需要整个表来对值进行排序并返回中位数…

// Once all entries for a group are exhausted, spark will evaluate to get the final result

def evaluate(buffer: Row) = {...}

这有可能吗?或者还有另一个不错的解决方法吗?我想强调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值