1、找数据集
已经有数据集的跳过这一步。
找到合适的数据集。如何找数据集请查看一些其他教程。
2、理解数据
这一步主要是对自己找到的数据集要有一个总体的认识,而不需要对数据做出修改。
- 字段类型对于每一个字段,理解它的属性和意义。每个字段的类型,例如日期,整数,小数等;对于每个字段,查找相关的资料了解它的重要性及意义。
- 每个字段是否有缺失值,错误值(如整数字段出现字母,重复值)等。
3、数据处理
首先处理掉字段的错误值,然后再使用一些函数对数据进行处理。下面说一下常见错误的处理方式。
a. 缺失值
缺失值是指该字段没有值 或者 出现NaN, 还有一种情况就是在不允许出现0的字段中,出现了0。缺失值可以使用 平均值,中位数, 众数 等来进行填充。
b. 重复值
重复值有两种,一种是对于行来说,例如两行数据一模一样的,则可删除掉一行。另外一种是同一列中出现重复数据的,这种情况要考虑该字段是否允许出现重复值。
c. 奇异值
奇异值是指远远超过该数据正常范围的值, 可以通过箱线图来识别,而要准确处理掉这些异常值则需要求出四分位等相关值来帮助定位这些数据。
理论部分就讲到这里,如果有什么错误的希望大家包含和指正。后面再写一篇数据预处理实战的。