流程图:
1.读数据表
成人收入预测数据集是由Ronny Kohavi和Barry Becker从美国某地区1994年的人口普查局数据库中提取的。该数据集包含32561位成人年收入及14个相关的指标。可以用此数据集来进行收入的预测,预测任务是确定一个人的年收入是否超过5万美元。 首先读取数据集,并查看数据集的前五行。
age | workclass | fnlwgt | education | education-num | marital-status | occupation | relationship | race | sex | capital-gain | capital-loss | hours-per-week | native-country | salary |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
39 | State-gov | 77516 | Bachelors | 13 | Never-married | Adm-clerical | Not-in-family | White | Male | 2174 | 0 | 40 | United-States | <=50K |
50 | Self-emp-not-inc | 83311 | Bachelors | 13 | Married-civ-spouse | Exec-managerial | Husband | White | Male | 0 | 0 | 13 | United-States | <=50K |
38 | Private | 215646 | HS-grad | 9 | Divorced | Handlers-cleaners | Not-in-family | White | Male | 0 | 0 | 40 | United-States | <=50K |
53 | Private | 234721 | 11th | 7 | Married-civ-spouse | Handlers-cleaners | Husband | Black | Male | 0 | 0 | 40 | United-States | <=50K |
28 | Private | 338409 | Bachelors | 13 | Married-civ-spouse | Prof-specialty | Wife | Black | Female | 0 | 0 | 40 | Cuba | <=50K |
此数据集共有15个变量,其中有9个分类变量依次是工作类型workclass
, 受教育程度education
, 婚姻状态marital_status
,职业occupation
,家庭成员关系 relationship
, 种族race
, 性别sex
, 国籍native_country
, 收入salary
;有6个连续型变量分别是年龄age
,序号fnlwgt
,受教育时长education_num
,资本收益capital_gain
,资本损失capital_loss
,每周工作小时数hours_per_week
。
2.缺失值检测
接着我们详细查看变量的基本情况以及数据中是否存在缺失值。
数据缺失值情况:
列名 | 缺失值数量 |
---|---|
age | 0 |
workclass | 0 |
fnlwgt | 0 |
education | 0 |
education-num | 0 |
marital-status | 0 |
occupation | 0 |
relationship | 0 |
race | 0 |
sex | 0 |
过滤的缺失值行数:0
通过缺失值检测发现不存在缺失值。但通过观察数据集发现,数据中有三组变量存在异常取值,接下来应对异常值进行处理。分别对工作类型workclass
、职业occupation
、国籍native_country
三组分类数据异常值进行替换,即取值为?
的异常值替换为unknown
。
3.工作类型异常值替换
对工作类型workclass
进行异常值替换。
age | workclass | fnlwgt |
---|