![数据清洗流程](https://img-blog.csdnimg.cn/20191101155627500.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0pvSm85MzcyMw==,size_16,color_FFFFFF,t_70)
预处理阶段
预处理阶段主要做两件事情:
一是将数据导入处理工具。
二是看数据。包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。
第一步:缺失值清洗
四个步骤:
1、确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。
![1.1](https://img-blog.csdnimg.cn/20191101160150704.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0pvSm85MzcyMw==,size_16,color_FFFFFF,t_70)
2、去除不需要的字段:直接删掉即可……但强烈建议清洗每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,不然删错了会追悔莫及(多说一句,写SQL的时候delete一定要配where