基于机器学习神经网络的个体收入预测分析 (计算机毕设完整代码数据)(博文底部vx获取)

本文介绍了如何使用美国人口普查局数据集预测成人年收入,包括数据读取、缺失值处理、异常值替换,以及通过逻辑回归模型分析工作类型、教育程度等因素的影响。模型评估显示分类效果良好,尽管对高收入群体的预测精度较低。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

流程图:

1.读数据表

成人收入预测数据集是由Ronny Kohavi和Barry Becker从美国某地区1994年的人口普查局数据库中提取的。该数据集包含32561位成人年收入及14个相关的指标。可以用此数据集来进行收入的预测,预测任务是确定一个人的年收入是否超过5万美元。 首先读取数据集,并查看数据集的前五行。

age workclass fnlwgt education education-num marital-status occupation relationship race sex capital-gain capital-loss hours-per-week native-country salary
39 State-gov 77516 Bachelors 13 Never-married Adm-clerical Not-in-family White Male 2174 0 40 United-States <=50K
50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse Exec-managerial Husband White Male 0 0 13 United-States <=50K
38 Private 215646 HS-grad 9 Divorced Handlers-cleaners Not-in-family White Male 0 0 40 United-States <=50K
53 Private 234721 11th 7 Married-civ-spouse Handlers-cleaners Husband Black Male 0 0 40 United-States <=50K
28 Private 338409 Bachelors 13 Married-civ-spouse Prof-specialty Wife Black Female 0 0 40 Cuba <=50K

此数据集共有15个变量,其中有9个分类变量依次是工作类型workclass, 受教育程度education, 婚姻状态marital_status,职业occupation,家庭成员关系 relationship, 种族race, 性别sex, 国籍native_country, 收入salary;有6个连续型变量分别是年龄age,序号fnlwgt,受教育时长education_num,资本收益capital_gain,资本损失capital_loss,每周工作小时数hours_per_week

2.缺失值检测

接着我们详细查看变量的基本情况以及数据中是否存在缺失值。

数据缺失值情况:

列名 缺失值数量
age 0
workclass 0
fnlwgt 0
education 0
education-num 0
marital-status 0
occupation 0
relationship 0
race 0
sex 0

过滤的缺失值行数:0

通过缺失值检测发现不存在缺失值。但通过观察数据集发现,数据中有三组变量存在异常取值,接下来应对异常值进行处理。分别对工作类型workclass、职业occupation、国籍native_country三组分类数据异常值进行替换,即取值为的异常值替换为unknown

3.工作类型异常值替换

对工作类型workclass进行异常值替换。

age workclass fnlwgt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员奇奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值