Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略

本文详细介绍adult人口普查收入数据集,该数据集源自1994年人口普查数据库,主要用于预测个人年收入是否超过50K。包含48842个实例及14个特征变量,适用于分类预测、数据挖掘等任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略

目录

adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介

0、部分数据集

1、数据集描述

2、在从训练/测试集中删除未知数后,错误准确度报告如下)

adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的下载

adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的使用方法

1、经典案例


adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介

       adult数据,Barry Becker 从 1994 年人口普查数据库中提取,常用于分类预测(确定一个人的年收入是否超过 50K)、数据挖掘与可视化任务。具体数据集可以在官网链接上找到,由Ronny Kohavi and Barry Becker捐赠。该数据集包含48842个实例,包括continuous、discrete ,如果去掉unknown values,共计45222实例。其中有6个样本是重复或冲突的实例,

官网http://www.census.gov/ftp/pub/DES/www/welcome.html
下载地址Index of /ml/machine-learning-databases/adult

0、部分数据集

ageworkclassfnlwgteducationeducation_nummarital_statusoccupationrelationshipracesexcapital_gaincapital_losshours_per_weeknative_countrysalary
39State-gov77516Bachelors13Never-marriedAdm-clericalNot-in-familyWhiteMale2174040United-States<=50K
50Self-emp-not-inc83311Bachelors13Married-civ-spouseExec-managerialHusbandWhiteMale0013United-States<=50K
38Private215646HS-grad9DivorcedHandlers-cleanersNot-in-familyWhiteMale0040United-States<=50K
53Private23472111th7Married-civ-spouseHandlers-cleanersHusbandBlackMale0040United-States<=50K
28Private338409Bachelors13Married-civ-spouseProf-specialtyWifeBlackFemale0040Cuba<=50K

1、数据集描述

name中文type
age年龄continuous
workclass工人阶级Private、Self-emp-not-inc、Self-emp-inc、Federal-gov、Local-gov、State-gov、Without-pay、Never-worked
fnlwgtfnlwgtcontinuous
education教育Bachelors、Some-college、11th、HS-grad、Prof-school、Assoc-acdm、Assoc-voc、9th、7th-8th、12th、Masters、1st-4th、10th、Doctorate、5th-6th、Preschool
education-num最高教育水平continuous
marital-status婚姻状况Married-civ-spouse、Divorced、Never-married、Separated、Widowed、Married-spouse-absent、Married-AF-spouse
occupation职业Tech-support、Craft-repair、Other-service、Sales、Exec-managerial、Prof-specialty、Handlers-cleaners、Machine-op-inspct、Adm-clerical、Farming-fishing、Transport-moving、Priv-house-serv、Protective-serv、Armed-Forces
relationship关系Wife、Own-child、Husband、Not-in-family、Other-relative、Unmarried
race种族White、Asian-Pac-Islander、Amer-Indian-Eskimo、Other、Black
sex性别Female、Male
capital-gain资本收益continuous
capital-loss资本损失continuous
hours-per-week每周几小时continuous
native-country国家或地区United-States、Cambodia、England、Puerto-Rico、Canada、Germany、Outlying-US(Guam-USVI-etc)、India、Japan、Greece、South、China、Cuba、Iran、Honduras、Philippines、Italy、Poland、Jamaica、Vietnam、Mexico、Portugal、Ireland、France、Dominican-Republic、Laos、Ecuador、Taiwan、Haiti、Columbia、Hungary、Guatemala、Nicaragua、Scotland、Thailand、Yugoslavia、El-Salvador、Trinadad&Tobago、Peru、Hong、Holand-Netherlands
salary年薪Probability for the label '>50K'  : 23.93% / 24.78% (without unknowns)
Probability for the label '<=50K' : 76.07% / 75.22% (without unknowns)

2、在从训练/测试集中删除未知数后,错误准确度报告如下)

C4.5:84.46+-0.30
Naive-Bayes:83.88+-0.30
NBTree:85.90+-0.28

以下算法随后以以下错误率运行,所有这些都是在移除未知数并使用原始训练/测试拆分之后。所有这些数字都是使用具有默认值的 MLC++ 直接运行的。

   Algorithm               Error
-- ----------------        -----
1  C4.5                    15.54
2  C4.5-auto               14.46
3  C4.5 rules              14.94
4  Voted ID3 (0.6)         15.64
5  Voted ID3 (0.8)         16.47
6  T2                      16.84
7  1R                      19.54
8  NBTree                  14.10
9  CN2                     16.00
10 HOODG                   14.82
11 FSS Naive Bayes         14.05
12 IDTM (Decision table)   14.46
13 Naive-Bayes             16.12
14 Nearest-neighbor (1)    21.42
15 Nearest-neighbor (3)    20.35
16 OC1                     15.04
17 Pebls                   Crashed.  Unknown why (bounds WERE increased)

adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的下载

下载地址Index of /ml/machine-learning-databases/adult

adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的使用方法

1、经典案例

 
相关文章
Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略实现

相关文章
Dataset:adult人口普查收入二分类预测数据集(预测年收入是否超过50k)的简介、下载、使用方法之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值