spark学习笔记6

最新推荐文章于 2024-06-04 18:06:31 发布

rona1

最新推荐文章于 2024-06-04 18:06:31 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/rona1/article/details/79956196

版权

pyspark.sql.DataFrame对象的方法

aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作
print aggr.collect()

print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数，只是近似值

print sparkdf.colRegex("\w+") #spark version 2.3 选择列名符合正则表达式的列

print sparkdf.columns #列名列表
print sparkdf.corr('a','b') #求两列相关系数
print sparkdf.count() #求总行数
print sparkdf.cov('a','b') #求两列的协方差

sparkdf.createOrReplaceTempView("people")  #为df创建一个视图
print spark.sql("select * from peopl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rona1

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark学习笔记6

pyspark.sql.DataFrame对象的方法aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作print aggr.collect()print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数，只是近似值print sparkdf.colRegex("\w+") #spar...
复制链接

扫一扫