缺失值是指在数据采集与整理过程中丢失的内容。
一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。
如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中 “ 张三 ” 的性别和 “ 赵六 ” 的年龄就出现了缺失。
缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。
插值处理根据插值的不同,有如下一些方法:
1 .随机插值
根据缺失值的各种可能情况,等概率地进行插值。
例如在上例中, “ 张三 ” 的性别有两种可能性,一是 “ 男 ” ,二是 “ 女 ” ,可以简单地掷一枚硬币,如果正面朝上,则赋值为 “ 男 ” ,如果反面朝上,则赋值为 “ 女 ” 。
2 .依概率插值
随机插值是假定各种一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,我们知道在上述的单位中,女性占的比例是 75 %,男性的比例是 25 %,则在对 “ 张三 ” 的性别进行赋值时,不是按 50 %概率赋为 “ 女 ” ,而是按 75 %概率赋为 “ 女 ” 。
3 .就近插值
就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中, “ 张三 ” 的性别出现缺失,此时可以用其邻近的 “ 李四 ” 的性别数据替代 “ 张三 ” 的性别数据,由于 “ 李四 ” 的性别为 “ 女 ” ,所以将 “ 张三 ” 的性别也赋为 “ 女 ” 。
就近插值是依概率插值的一种简化处理,设想在整个单位的职工中,女性占的比例是 75 %,则在一般情况下,与张三邻近的记录性别为 “ 女 ” 的概率也应当为 75 %,就近插值实际上就是依概率插值。
使用就近插值时,需要对抽样过程进行必要的了解,如果抽样时性别有交叉的情况,例如经常是调查完一名男性后就调查一名女性,则使用就近插值就会出现较多的错误。
4 .分类插值
依概率插值是将记录置于总体的背景上进行插值,没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性,则可以根据这些辅助信息对总体进行分类,在每一类内部进行插值处理。
例如在上例中, “ 张三 ” 的职业是 “ 护士 ” ,假定该单位中 95 %的 “ 护士 ” 性别为 “ 女 ” ,则在进行插值是,就不是使用全单位的女性比例 75 %,而是使用 “ 护士 ” 中的女性比例 95 %对 “ 张三 ” 的性别进行赋值。
一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。
如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中 “ 张三 ” 的性别和 “ 赵六 ” 的年龄就出现了缺失。
缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。
插值处理根据插值的不同,有如下一些方法:
1 .随机插值
根据缺失值的各种可能情况,等概率地进行插值。
例如在上例中, “ 张三 ” 的性别有两种可能性,一是 “ 男 ” ,二是 “ 女 ” ,可以简单地掷一枚硬币,如果正面朝上,则赋值为 “ 男 ” ,如果反面朝上,则赋值为 “ 女 ” 。
2 .依概率插值
随机插值是假定各种一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,我们知道在上述的单位中,女性占的比例是 75 %,男性的比例是 25 %,则在对 “ 张三 ” 的性别进行赋值时,不是按 50 %概率赋为 “ 女 ” ,而是按 75 %概率赋为 “ 女 ” 。
3 .就近插值
就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中, “ 张三 ” 的性别出现缺失,此时可以用其邻近的 “ 李四 ” 的性别数据替代 “ 张三 ” 的性别数据,由于 “ 李四 ” 的性别为 “ 女 ” ,所以将 “ 张三 ” 的性别也赋为 “ 女 ” 。
就近插值是依概率插值的一种简化处理,设想在整个单位的职工中,女性占的比例是 75 %,则在一般情况下,与张三邻近的记录性别为 “ 女 ” 的概率也应当为 75 %,就近插值实际上就是依概率插值。
使用就近插值时,需要对抽样过程进行必要的了解,如果抽样时性别有交叉的情况,例如经常是调查完一名男性后就调查一名女性,则使用就近插值就会出现较多的错误。
4 .分类插值
依概率插值是将记录置于总体的背景上进行插值,没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性,则可以根据这些辅助信息对总体进行分类,在每一类内部进行插值处理。
例如在上例中, “ 张三 ” 的职业是 “ 护士 ” ,假定该单位中 95 %的 “ 护士 ” 性别为 “ 女 ” ,则在进行插值是,就不是使用全单位的女性比例 75 %,而是使用 “ 护士 ” 中的女性比例 95 %对 “ 张三 ” 的性别进行赋值。