文章大纲 数据清洗 删除重复值 缺失值填充 异常值处理 参考文献 经过上一篇文章 介绍过,数据的整体情况,我们可以是用pyspark 进行特征工程相关的开发。 为此,我们可以进行两方面的封装: spark_session 的生成与获取 文件加载 进行封装之后,下面我们来探索,如何进行 数据清洗与特诊工程 数据清洗 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 data_df.describe().toPandas() 下面结果是 EDA 后 的一些统计结果 summary index SeriousDl