python输入一组数字求平均值和标准差_如何计算PySpark DataFrame的平均值和标准差?...

您可以使用内置函数来获取聚合统计信息。以下是如何获得均值和标准偏差。

from pyspark.sql.functions import mean as _mean, stddev as _stddev, col

df_stats = df.select(

_mean(col('columnName')).alias('mean'),

_stddev(col('columnName')).alias('std')

).collect()

mean = df_stats[0]['mean']

std = df_stats[0]['std']

请注意,有三种不同的标准偏差功能。从文档中我使用的文档(stddev)返回以下内容:

聚合函数:返回无偏样本标准差

组中的表达

您也可以使用describe()方法:

df.describe().show()

更新:这是您处理嵌套数据的方法。

使用explode将值提取到单独的行中,然后调用mean和stddev,如上所示。

这是一个MWE:

from pyspark.sql.types import IntegerType

from pyspark.sql.functions import explode, col, udf, mean as _mean, stddev as _stddev

# mock up sample dataframe

df = sqlCtx.createDataFrame(

[(680, [[691,1], [692,5]]), (685, [

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值