pyspark.sql.
DataFrame
对象的方法
aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作
print aggr.collect()
print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数,只是近似值
print sparkdf.colRegex("\w+") #spark version 2.3 选择列名符合正则表达式的列
print sparkdf.columns #列名列表
print sparkdf.corr('a','b') #求两列相关系数
print sparkdf.count() #求总行数
print sparkdf.cov('a','b') #求两列的协方差
sparkdf.createOrReplaceTempView("people") #为df创建一个视图
print spark.sql("select * from peopl