pandas人口收入普查数据探索

ic之芯

已于 2023-08-10 17:30:11 修改

阅读量162

点赞数

文章标签： pandas

于 2023-07-21 14:10:23 首次发布

本文链接：https://blog.csdn.net/qq_65838372/article/details/131850515

版权

运用 Pandas 探索数据，回答有关 Adult 数据集的几个问题。Adult 数据集是一个关于人口收入普查的数据集，其包含多个特征，目标值为类别类型。

首先，加载并预览该数据集。

import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
warnings.filterwarnings('ignore')

data = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv")
data.head()

问题：数据集中有多少男性和女性？

data['sex'] .value_counts()

问题：数据集中女性的平均年龄是多少？

data[data["sex"] == "Female"]['age'].mean()

问题：数据集中德国公民的比例是多少？

(data["native-country"] == "Germany").sum()/data.shape[0]

问题：年收入超过 50K 和低于 50K 人群年龄的平均值和标准差是多少？

data[data["salary"] == "<=50K"]["age"].std()
data[data["salary"] == "<=50K"]["age"].mean()

问题：年收入超过 50K 的人群是否都接受过高中以上教育？

data[data['salary'] == ">50K"]["education"].unique()

问题：使用 groupby 和 describe 统计不同种族和性别人群的年龄分布数据

for (race, sex), sub_data in data.groupby(["race", "sex"]):
    print("race:{0},sex:{1}".format(race, sex))
    print(sub_data['age'].describe())

问题：统计男性高收入人群中已婚和未婚（包含离婚和分居）人群各自所占数量。

data[(data['sex'] == 'Male') & (data['marital-status'] == "Married-civ-spouse")]["salary"].value_counts()

问题：统计数据集中最长周工作小时数及对应的人数，并计算该群体中收入超过 50K 的比例

work_max = data["hours-per-week"].max()
workernum = data[data["hours-per-week"] == work_max].shape[0]
rich_share = float(data[(data["hours-per-week"] == work_max) & (data["salary"] == ">50K")].shape[0]) / workernum
print("percentage of rich among them is {0}%^".format(round(rich_share*100,1)))

问题：计算各国超过和低于 50K 人群各自的平均周工作时长。

for (country, salary), sub_data in data.groupby(["native-country", "salary"]):
    print("country:{0}, salary: {1}".format(country, salary))
    print("the average of workHours :{0}".format(round(sub_data["hours-per-week"].mean(), 2)))


#交叉表
pd.crosstab(data["native-country"], data["salary"], values = data["hours-per-week"], aggfunc = np.mean).T

ic之芯

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
pandas人口收入普查数据探索

Adult 数据集是一个关于人口收入普查的数据集，其包含多个特征，目标值为类别类型。统计数据集中最长周工作小时数及对应的人数，并计算该群体中收入超过 50K 的比例。年收入超过 50K 和低于 50K 人群年龄的平均值和标准差是多少？统计男性高收入人群中已婚和未婚（包含离婚和分居）人群各自所占数量。计算各国超过和低于 50K 人群各自的平均周工作时长。年收入超过 50K 的人群是否都接受过高中以上教育？统计不同种族和性别人群的年龄分布数据。数据集中女性的平均年龄是多少？数据集中德国公民的比例是多少？
复制链接

扫一扫