统计基础
- 1. 简单统计
- 2. 随机数
- 3. 四舍五入
- 4. 抽样
- 5. 描述性统计
- 6. 最大值最小值
- 7. 均值方差
- 8. 协方差与相关系数
- 9. 交叉表(列联表)
- 10. 频繁项目元素
- 11. 其他数学函数
- 12. 元素去重计数
- 13. 聚合函数 grouping
- 14. 聚合函数 grouping_id
1. 简单统计
在数据分析中,基本统计分析已经能满足95%的需求了,什么是基本统计分析呢,就是均值,方差,标准差,抽样,卡方,相关系数,协方差,假设检验等。如果你的需求超出了这个范畴,我想你应该从事很高深的工作吧,或者你在一个很厉害的公司或者很牛逼的部门,那么你也不用担心spark做不到,因为有人会帮你做到的。
spark dataframe的基本统计函数已经包含在 pyspark.sql.functions
中,类似的,dataframe本身也有一些统计方法。
2. 随机数
# 基于dataframe生成相同行数的随机数
from pyspark.sql.functions import rand, randn # 均匀分布和正太分布函数
color_df.select(rand(seed=10).alias("uniform"),
randn(seed=27).alias("normal"))\
.show()
# 或者随机生成指定行数的dataframe
df = spark.range(0, 10).withColumn('rand1', rand(seed=10)) \
.withColumn('rand2', rand(seed=27))
df.show()
3. 四舍五入
from pyspark.sql.functions import round
df = spark.createDataFrame([(2.5,)], ['a'])
df.select(round('a', 0).alias('r')).show()
4. 抽样
from pyspark.sql
spark = SparkSession \
.builder \
.appName('my_first_app_name') \
.getOrCreate()
# 生成测试数据
colors = ['white','green','yellow','red','brown','pink']
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_