脏数据就是再物理上存在过,但是逻辑上并不存在的数据。
数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样。
数据预处理方法:
1、部署环境,导入分析包和数据
import pandas as pd
import numpy as np
fileNameStr = '文件名'
DataDF = pd.read_csv()
2、尝试去理解这份数据
我们可以通过对数据集提问来判断这份数据能不能满足解答我们的问题,数据是否干净需不需要进一步处理,问题包括但不限于:
- 数据集多少数据?
- 包含了什么字段?
- 字段格式是什么?
- 格式是否统一
- 是否存在乱码
- 字段分别代表什么意义
- 字段之间的关系是什么?可以用做什么分析?或者说能否满足了对分析的要求?
- 有没有缺失值;如果有的话,缺失值多不多?
- 现有数据里面有没有脏数据?尤其需要注意人工输入的数据,经常会出现名称写错,多输入空格等等的情况
根据以上问题对数据进行修正。