1.数据概述
本报告中采用的数据集来自于UCI经典数据集Adult,最初来源是由1994年Barry Becker的统计数据集,该数据集本来最初的主要任务是根据数据集中的相关属性预测某个人的年收入是大于50K还是小于等于50K。本数据集一共有14个属性用来预测个人的年收入,包括了年龄、工作阶层、教育程度、职业、性别、种族、家庭状况等情况。这14个基本属性中有一项属性为fnlwgt,即final weight,具有相同背景的人的fnlwgt应该类似。同时本数据集一共有32561个样本案例,属性的数据类型有数值型数据和分类型数据。根据每一个属性和最终收入的关系的统计结果如下图所示:
图1.1 所有特征值的统计结果
其中蓝色表示的是年收入小于等于50K,红色表示是年收入大于50K。由上图可以看出很多特征中数据的分布很不平衡。在native_country属性中,绝大多数的人都集中在美国,这是由于该统计数据主要是在美国范围内进行调查的,所以大多数人的初始国籍都是美国,因而该属性对于最终的分析的影响不大。同时观察captital_gain和capital_loss的分布,可以发现大多数都处于0。在workclass中大多数的属性都是private,而relationship和sex之间也必然存在相关联系,例如relationship中的husband一定对应的是sex中的male,这些属性间的相关关系在之后的分析中都需要加以关注。
2.数据预处理
2.1降维、缺失项处理
本数据集14个属性分别为age、workclass、fnlwgt、education、education_num、marital_status、occupation、relationship、race、sex、capital_gain、capital_loss、hours_per_week、native_country,在这14个属性中,必然存在两者相关的属性。
首先可以分析education和education_num之间的相互关系,如下图2.1所示:
图2.1 education和education_num交叉列表
由此可以看出一个教育程度对应一个教育年限,因而在之后的分析之中,将教育程度和教育年限合并为一个变量即教育水平,用原教育年限的数值来表示该变量。
整个数据集中包含了缺失项,首先对缺失项进行统计,存在缺失值的属性主要是工作阶层、职业以及来自国家,缺失率分别为5.6%,5.7%,1.8%,具体的缺失情况如下图2.2所示:
图2.2 数据缺失情况
对工作阶层和职业的相互关系进行分析,如下图2.3所示:
图2.3 职业和工作阶层相互关系
有图2.3可以看出,所有工作阶层的缺失值,其对应的职业也是缺失的,而职业缺失的另外一部分为从来没有工作的那一部分即有7个案例满足条件,而这些人的收入必然是小于50k的,因而可以将这些案例删除。而再进一步对所有工作阶层缺失的1836个案例的收入进行分析,可以得到如下关系:
图2.4 工作阶层和收入的相互关系
从上图中可