pandas人口收入普查数据探索

运用 Pandas 探索数据,回答有关  Adult 数据集 的几个问题。Adult 数据集是一个关于人口收入普查的数据集,其包含多个特征,目标值为类别类型。

首先,加载并预览该数据集。

import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
warnings.filterwarnings('ignore')

data = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv")
data.head()

  问题:数据集中有多少男性和女性?

data['sex'] .value_counts()

  问题:数据集中女性的平均年龄是多少?

data[data["sex"] == "Female"]['age'].mean()

  问题:数据集中德国公民的比例是多少?

(data["native-country"] == "Germany").sum()/data.shape[0]

 问题:年收入超过 50K 和低于 50K 人群年龄的平均值和标准差是多少?

data[data["salary"] == "<=50K"]["age"].std()
data[data["salary"] == "<=50K"]["age"].mean()

问题:年收入超过 50K 的人群是否都接受过高中以上教育?

data[data['salary'] == ">50K"]["education"].unique()

 问题:使用 groupby 和 describe 统计不同种族和性别人群的年龄分布数据

for (race, sex), sub_data in data.groupby(["race", "sex"]):
    print("race:{0},sex:{1}".format(race, sex))
    print(sub_data['age'].describe())

 问题:统计男性高收入人群中已婚和未婚(包含离婚和分居)人群各自所占数量。

data[(data['sex'] == 'Male') & (data['marital-status'] == "Married-civ-spouse")]["salary"].value_counts()

 问题:统计数据集中最长周工作小时数及对应的人数,并计算该群体中收入超过 50K 的比例

work_max = data["hours-per-week"].max()
workernum = data[data["hours-per-week"] == work_max].shape[0]
rich_share = float(data[(data["hours-per-week"] == work_max) & (data["salary"] == ">50K")].shape[0]) / workernum
print("percentage of rich among them is {0}%^".format(round(rich_share*100,1)))

 问题:计算各国超过和低于 50K 人群各自的平均周工作时长。

for (country, salary), sub_data in data.groupby(["native-country", "salary"]):
    print("country:{0}, salary: {1}".format(country, salary))
    print("the average of workHours :{0}".format(round(sub_data["hours-per-week"].mean(), 2)))


#交叉表
pd.crosstab(data["native-country"], data["salary"], values = data["hours-per-week"], aggfunc = np.mean).T

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
校园悬赏任务平台对字典管理、论坛管理、任务资讯任务资讯公告管理、接取用户管理、任务管理、任务咨询管理、任务收藏管理、任务评价管理、任务订单管理、发布用户管理、管理员管理等进行集中化处理。经过前面自己查阅的网络知识,加上自己在学校课堂上学习的知识,决定开发系统选择小程序模式这种高效率的模式完成系统功能开发。这种模式让操作员基于浏览器的方式进行网站访问,采用的主流的Java语言这种面向对象的语言进行校园悬赏任务平台程序的开发,在数据库的选择上面,选择功能强大的Mysql数据库进行数据的存放操作。校园悬赏任务平台的开发让用户查看任务信息变得容易,让管理员高效管理任务信息。 校园悬赏任务平台具有管理员角色,用户角色,这几个操作权限。 校园悬赏任务平台针对管理员设置的功能有:添加并管理各种类型信息,管理用户账户信息,管理任务信息,管理任务资讯公告信息等内容。 校园悬赏任务平台针对用户设置的功能有:查看并修改个人信息,查看任务信息,查看任务资讯公告信息等内容。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。项目管理页面提供的功能操作有:查看任务,删除任务操作,新增任务操作,修改任务操作。任务资讯公告信息管理页面提供的功能操作有:新增任务资讯公告,修改任务资讯公告,删除任务资讯公告操作。任务资讯公告类型管理页面显示所有任务资讯公告类型,在此页面既可以让管理员添加新的任务资讯公告信息类型,也能对已有的任务资讯公告类型信息执行编辑更新,失效的任务资讯公告类型信息也能让管理员快速删除。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值