什么是数据清洗
在大数据时代下,我们在针对某一问题的研究时,会有很多数据,但是这些数据一定是合理且能够使用的数据吗?答案当然是否定的。
比如学生信息数据集中,可能有人恶意将年龄写成9999,将重量写成0.0001,如果我们直接使用这些可能出现的错误数据,那么在进行之后的数据分析或者是机器学习时,这些情况都会导致很大的误差。
那么数据清洗这一名词就出现了,其原理就是,先知道数据中大致有哪些错误,然后将这些错误问题一一解决。
数据清洗过程
- 引入数据处理的pandas包
pandas可以很方便的让我们进行数据清洗的过程吗。 - 读取所要清洗的数据
- 分析数据中可能存在的问题
- 针对上述问题选取合理的解决方案
- 进行代码编写,完成解决方案
- 应用到所选取的数据中
- 将清洗完成的数据重新进行存储
数据大概如图
import pandas