本文主要是使用xgboost, RandomForestClassifier算法实现美国1994年人口普查数据,居民年收入是否超过50K的分类问题。
主要内容如下:
1 数据预处理
数据信息查看,添加对应的列标签
缺失值处理,以及属性值替换
Ordinal Encoding to Categoricals(string 特征转化为整数编码)
2 模型训练以及验证
xgboost算法分类以及GridSearchCV 参数寻优
xgboost early stopping CV
测试集准确率验证
RandomForestClassifier模型分类以及验证
1 数据预处理
1.1 数据描述
数据集说明以及下载地址:
https://archive.ics.uci.edu/ml/datasets/Adult
https://archive.ics.uci.edu/ml/machine-learning-databases/adult/
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K /year。该数据集类变量为年收入是否超过50k ,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量.
数据集各属性是:其中序号0~13是属性, 14是类别
序号 | 字段名 | 含义 | 类型 |
---|---|---|---|
0 | age | 年龄 | Double |
1 | workclass | 工作类型* | string |
2 | fnlwgt | 序号 | string |
3 | education | 教育程度* | string |