Action 操作
collect() ,返回值是一个数组,返回dataframe集合所有的行
collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行
count() 返回一个number类型的,返回dataframe集合的行数
describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用逗号分隔,如果有字段为空,那么不参与运算,只这对数值类型的字段。例如df.describe(“age”, “height”).show()
first() 返回第一行 ,类型是row类型
head() 返回第一行 ,类型是row类型
head(n:Int)返回n行 ,类型是row 类型
show()返回dataframe集合的值 默认是20行,返回类型是unit
show(n:Int)返回n行,,返回值类型是unit
table(n:Int) 返回n行 ,类型是row 类型
dataframe的基本操作
cache()同步数据的内存
columns 返回一个string类型的数组,返回值是所有列的名字
dtypes返回一个string类型的二维数组,返回值是所有列的名字以及类型
explan()打印执行计划 物理的
explain(n:Boolean) 输入值为 false 或者true ,返回值是unit 默认是false ,如果输入true 将会打印 逻辑的和物理的
isLocal 返回值是B