pyspark系列--统计基础

最新推荐文章于 2024-07-22 21:51:13 发布

振裕

最新推荐文章于 2024-07-22 21:51:13 发布

阅读量9.8k

点赞数 2

分类专栏： spark 数据分析文章标签： spark dataframe 统计

本文链接：https://blog.csdn.net/suzyu12345/article/details/79673557

版权

本文介绍了PySpark中进行数据统计的基础操作，包括简单统计、随机数、四舍五入、抽样、描述性统计、最大值最小值、均值方差、协方差与相关系数、交叉表、频繁项目元素、数学函数、元素去重计数、聚合函数grouping和grouping_id等。这些基本统计分析功能在数据分析中十分常见，适用于大部分需求。

摘要由CSDN通过智能技术生成

统计基础

1. 简单统计
2. 随机数
3. 四舍五入
4. 抽样
5. 描述性统计
6. 最大值最小值
7. 均值方差
8. 协方差与相关系数
9. 交叉表(列联表)
10. 频繁项目元素
11. 其他数学函数
- 11.1. 数学函数
12. 元素去重计数
13. 聚合函数 grouping
14. 聚合函数 grouping_id

1. 简单统计

在数据分析中，基本统计分析已经能满足95%的需求了，什么是基本统计分析呢，就是均值，方差，标准差，抽样，卡方，相关系数，协方差，假设检验等。如果你的需求超出了这个范畴，我想你应该从事很高深的工作吧，或者你在一个很厉害的公司或者很牛逼的部门，那么你也不用担心spark做不到，因为有人会帮你做到的。

spark dataframe的基本统计函数已经包含在 pyspark.sql.functions 中，类似的，dataframe本身也有一些统计方法。

2. 随机数

# 基于dataframe生成相同行数的随机数
from pyspark.sql.functions import rand, randn  # 均匀分布和正太分布函数

color_df.select(rand(seed=10).alias("uniform"), 
                randn(seed=27).alias("normal"))\
    .show()

# 或者随机生成指定行数的dataframe
df = spark.range(0, 10).withColumn('rand1', rand(seed=10)) \
                       .withColumn('rand2', rand(seed=27))
df.show()

3. 四舍五入

from pyspark.sql.functions import round
df = spark.createDataFrame([(2.5,)], ['a'])

df.select(round('a', 0).alias('r')).show()

4. 抽样

from pyspark.sql
spark = SparkSession \
    .builder \
    .appName('my_first_app_name') \
    .getOrCreate()

# 生成测试数据
colors = ['white','green','yellow','red','brown','pink']
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_

最低0.47元/天解锁文章

振裕

关注

2
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
pyspark系列--统计基础

统计基础 1. 简单统计2. 随机数3. 四舍五入4. 抽样5. 描述性统计6. 最大值最小值7. 均值方差8. 协方差与相关系数9. 交叉表(列联表)10. 频繁项目元素11. 其他数学函数 11.1. 数学函数12. 元素去重计数13. 聚合函数 grouping14. 聚合函数 grouping_id1. 简单统计在数据分析中，基本统计分...
复制链接

扫一扫

专栏目录