大数据中位数怎么运算_Spark Scala：用户定义的计算中位数的聚合函数

最新推荐文章于 2024-04-18 00:30:20 发布

weixin_39594457

最新推荐文章于 2024-04-18 00:30:20 发布

阅读量421

点赞数

文章标签：大数据中位数怎么运算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39594457/article/details/113553357

版权

该博客讨论了如何在Apache Spark中使用Scala自定义用户定义的聚合函数(UDAF)计算数据帧的中位数。作者提供了一个示例数据帧并展示了尝试创建UDAF的代码，但遇到了在`evaluate`方法中需要DataFrame而不是Row的问题。最后，作者给出了使用`percentile_approx`函数的解决方案。

摘要由CSDN通过智能技术生成

我试图找到一种方法来计算给定数据帧的中位数.

val df = sc.parallelize(Seq(("a",1.0),("a",2.0),("a",3.0),("b",6.0), ("b", 8.0))).toDF("col1", "col2")

+----+----+

|col1|col2|

+----+----+

| a| 1.0|

| a| 2.0|

| a| 3.0|

| b| 6.0|

| b| 8.0|

+----+----+

现在我想做那样的事情：

df.groupBy( “COL1”).AGG(calcmedian( “COL2”))

结果应如下所示：

+----+------+

|col1|median|

+----+------+

| a| 2.0|

| b| 7.0|

+----+------+`

因此calcmedian()必须是UDAF,但问题是,UDAF的“evaluate”方法只需要一行,但我需要整个表来对值进行排序并返回中位数…

// Once all entries for a group are exhausted, spark will evaluate to get the final result

def evaluate(buffer: Row) = {...}

这有可能吗？或者还有另一个不错的解决方法吗？我想强调

最低0.47元/天解锁文章

weixin_39594457

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。