Pyspark 常见数据清洗和补全指令:
Dataframe |
|
Df.select() |
选取某列 |
Df.fillna(0) |
用0补全所有na位 |
Df.filter(cond.)=Df.where(cond.) |
按照cond.过滤df,相当于where |
Df.groupby() |
==SQL groupby |
Df.drop() |
删除某列 |
Df.columns |
返回所有列名 |
Df.write.mode(“overwrite”).saveAsTable(‘name’) |
保存df到表 |