python求四分位数_pyspark根据ID计算四分位数，并根据四分位数范围进行分类

最新推荐文章于 2023-07-12 18:34:36 发布

VIP文章 weixin_39957318

最新推荐文章于 2023-07-12 18:34:36 发布

阅读量1k

点赞数

文章标签： python求四分位数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39957318/article/details/112028063

版权

我使用的是pyspark 1.5.2。我有一个列为“ID”和“Height”的pyspark数据帧，如下所示：| ID1| ID2| height|

---------------------------------------------

| 1| 000| 44|

| 2| 000| 72.9|

| 3| 000| 89|

| 4| 000| 45.5|

| 5| 000| 52.3|

| 6| 000| 87.9|

| 7| 000| 63.1|

| 8| 000| 26.1|

| 9| 000| 97|

| 10| 000| 120|

| 11| 000| 99|

| 12| 000| 96|

| 13| 000| 36.5|

| 14| 000| 0|

| 15| 001| 48|

| 16| 001| 152.1|

| 17| 001| 72.2|

| 18| 001| 21.5|

| 19| 001| 94|

| 20| 001| 220|

+--------------+--------------+-------------+

我想计算每个“ID2”的高度四分位数，并根据以下标准将其分为高、中或短：

^{pr2}$

我在调查pyspark.sql模块找到了一个summary()函数，我可以用它来计算四分位范围，但它不适用于基于列“ID2”的groupby。最终结果将是：| ID1 | Height |

-------------------------

| 1| Tall|

| 2| Short|

| 3| Medium| and so on

我该怎么做？有更好的方法还是更简单的方法？在

我对这一点相当陌生，希望你能帮助我！在

提前谢谢你！在

weixin_39957318

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python求四分位数_pyspark根据ID计算四分位数，并根据四分位数范围进行分类

我使用的是pyspark 1.5.2。我有一个列为“ID”和“Height”的pyspark数据帧，如下所示：| ID1| ID2| height|---------------------------------------------| 1| 000| 44|| ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。