DataFrame
agg(*exprs) 同df.groupBy.agg()
df.agg({"age":"sum"}).show()
±-------+
|sum(age)|
±-------+
| 13|
±-------+
df.agg({"age":"min"}).show()
±-------+
|min(age)|
±-------+
| 1|
±-------+
用pyspark.sql.functions
tips:可用alias重命名
from pyspark.sql import functions as F
df.agg(F.min(df.age).alias("min"),F.max(df.age),F.count(df.age)).show()
±–±-------±---------+
|min|max(age)|count(age)|
±–±-------±---------+
| 1| 12| 2|
±–±-------±---------+
df.agg({"age":"min","name":"count"}).show()
±----------±-------+
|count(name)|min(age)|
±----------±-------+
| 2| 1|
±----------±-------+