造成数据缺失的原因是多方面的,主要可能有以下几种:
- 有些信息暂时无法获取,致使一部分属性值空缺出来。
- 有些信息因为一些人为因素而丢失了。
- 有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名。
- 获取这些信息的代价太大,从而未获取数据。
为什么要进行空值处理?
- 系统丢失了大量的有用信息;
- 系统的不确定性更加显著,系统中的确定性成分更难把握;
- 包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
怎样查看数据缺失值的分布情况?
1.统计每列数据缺失值的分布情况
data.isnull().sum()
2.统计每行数据缺失值的分布情况
data.isnull().sum(axis=1)
通过指定参数axis=1来实现对每行数据的缺失值进行统计,默认是axis=0表示列。
空值处理的方法:
一、删除元组
将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个