Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略
目录
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的下载
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的使用方法
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介
adult数据,Barry Becker 从 1994 年人口普查数据库中提取,常用于分类预测(确定一个人的年收入是否超过 50K)、数据挖掘与可视化任务。具体数据集可以在官网链接上找到,由Ronny Kohavi and Barry Becker捐赠。该数据集包含48842个实例,包括continuous、discrete ,如果去掉unknown values,共计45222实例。其中有6个样本是重复或冲突的实例,
官网:http://www.census.gov/ftp/pub/DES/www/welcome.html
下载地址:Index of /ml/machine-learning-databases/adult
0、部分数据集
age | workclass | fnlwgt | education | education_num | marital_status | occupation | relationship | race | sex | capital_gain | capital_loss | hours_per_week | native_country | salary |
39 | State-gov | 77516 | Bachelors | 13 | Never-married | Adm-clerical | Not-in-family | White | Male | 2174 | 0 | 40 | United-States | <=50K |
50 | Self-emp-not-inc | 83311 | Bachelors | 13 | Married-civ-spouse | Exec-managerial | Husband | White | Male | 0 | 0 | 13 | United-States | <=50K |
38 | Private | 215646 | HS-grad | 9 | Divorced | Handlers-cleaners | Not-in-family | White | Male | 0 | 0 | 40 | United-States | <=50K |
53 | Private | 234721 | 11th | 7 | Married-civ-spouse | Handlers-cleaners | Husband | Black | Male | 0 | 0 | 40 | United-States | <=50K |
28 | Private | 338409 | Bachelors | 13 | Married-civ-spouse | Prof-specialty | Wife | Black | Female | 0 | 0 | 40 | Cuba | <=50K |
1、数据集描述
name | 中文 | type |
age | 年龄 | continuous |
workclass | 工人阶级 | Private、Self-emp-not-inc、Self-emp-inc、Federal-gov、Local-gov、State-gov、Without-pay、Never-worked |
fnlwgt | fnlwgt | continuous |
education | 教育 | Bachelors、Some-college、11th、HS-grad、Prof-school、Assoc-acdm、Assoc-voc、9th、7th-8th、12th、Masters、1st-4th、10th、Doctorate、5th-6th、Preschool |
education-num | 最高教育水平 | continuous |
marital-status | 婚姻状况 | Married-civ-spouse、Divorced、Never-married、Separated、Widowed、Married-spouse-absent、Married-AF-spouse |
occupation | 职业 | Tech-support、Craft-repair、Other-service、Sales、Exec-managerial、Prof-specialty、Handlers-cleaners、Machine-op-inspct、Adm-clerical、Farming-fishing、Transport-moving、Priv-house-serv、Protective-serv、Armed-Forces |
relationship | 关系 | Wife、Own-child、Husband、Not-in-family、Other-relative、Unmarried |
race | 种族 | White、Asian-Pac-Islander、Amer-Indian-Eskimo、Other、Black |
sex | 性别 | Female、Male |
capital-gain | 资本收益 | continuous |
capital-loss | 资本损失 | continuous |
hours-per-week | 每周几小时 | continuous |
native-country | 国家或地区 | United-States、Cambodia、England、Puerto-Rico、Canada、Germany、Outlying-US(Guam-USVI-etc)、India、Japan、Greece、South、China、Cuba、Iran、Honduras、Philippines、Italy、Poland、Jamaica、Vietnam、Mexico、Portugal、Ireland、France、Dominican-Republic、Laos、Ecuador、Taiwan、Haiti、Columbia、Hungary、Guatemala、Nicaragua、Scotland、Thailand、Yugoslavia、El-Salvador、Trinadad&Tobago、Peru、Hong、Holand-Netherlands |
salary | 年薪 | Probability for the label '>50K' : 23.93% / 24.78% (without unknowns) Probability for the label '<=50K' : 76.07% / 75.22% (without unknowns) |
2、在从训练/测试集中删除未知数后,错误准确度报告如下)
C4.5:84.46+-0.30
Naive-Bayes:83.88+-0.30
NBTree:85.90+-0.28
以下算法随后以以下错误率运行,所有这些都是在移除未知数并使用原始训练/测试拆分之后。所有这些数字都是使用具有默认值的 MLC++ 直接运行的。
Algorithm Error
-- ---------------- -----
1 C4.5 15.54
2 C4.5-auto 14.46
3 C4.5 rules 14.94
4 Voted ID3 (0.6) 15.64
5 Voted ID3 (0.8) 16.47
6 T2 16.84
7 1R 19.54
8 NBTree 14.10
9 CN2 16.00
10 HOODG 14.82
11 FSS Naive Bayes 14.05
12 IDTM (Decision table) 14.46
13 Naive-Bayes 16.12
14 Nearest-neighbor (1) 21.42
15 Nearest-neighbor (3) 20.35
16 OC1 15.04
17 Pebls Crashed. Unknown why (bounds WERE increased)
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的下载
下载地址:Index of /ml/machine-learning-databases/adult
adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的使用方法
1、经典案例
相关文章
Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略实现
相关文章
Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略实现