method of DataFrame
缺失值&重复值 处理
drop_duplicates
eg: 1. df.drop_duplicates() 2.df.drop_duplicates(columns_lst)df.fillna(value),df.na.fill(dict{col_name:fill_value})
df1.intersect (df2) 两个DF的交集
df1.subtract(df2) 属于df1 但不属于df2 的ROW
orderBy(col,ascending)
from pyspark.sql.functions import *
df.orderBy(colname,ascending=0)
df.orderBy(asc(col_name))
randomSplit
getNunPartitions()
-spark.range() 生成的是id ,本身就定义了列名”id”
sampleBy(col,fraction)
按照某列采样,可对样本进行下采样基于自己的理解,DF中的select 与rdd 中的map 相同
unpersist(blocking=False) 释放内存
withColumn(col_name,exp) 用来新增加一列值,一般在rdd中增加一列写起来比较麻烦,DF中使用withColumn 该方法简便.