人口分析案例

最新推荐文章于 2022-10-29 23:23:45 发布

胜天半月子

最新推荐文章于 2022-10-29 23:23:45 发布

阅读量2k

点赞数 15

分类专栏： # Python科学计算基础文章标签： 1024程序员节 python jupyter 数据分析

本文链接：https://blog.csdn.net/HG0724/article/details/120941919

版权

这篇博客主要介绍了如何进行人口数据分析，包括数据预处理和处理阶段。首先，从源数据中获取并合并人口数据和各州简称数据，删除重复项，处理缺失值。接着，通过数据处理，填充state列的NaN值，合并各州面积数据，处理area列的缺失值，并计算各州人口密度。最后，博主对人口密度最高的五个州进行了排序和展示。

摘要由CSDN通过智能技术生成

需求

源数据获取–密码:6qpt

导入文件，查看原始数据

将人口数据和各州简称数据进行合并

将合并的数据中重复的abbreviation列进行删除

查看存在缺失数据的列

找到有哪些state/region使得state的值为NaN，进行去重操作

为找到的这些state/region的state项补上正确的值，从而去除掉state 这一列的所有NaN

合并各州面积数据areas

我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行

去除含有缺失数据的行

找出2010年的全民人口数据

计算各州的人口密度

排序，并找出人口密度最高的五个州 df.sort_values()

一、数据预处理

导入包

import pandas as pd
import numpy as np
from pandas import DataFrame

导入文件查看原始数据

abb = pd.read_csv('./data/state-abbrevs.csv')
abb
# state：全称  abbreviation：简称

在这里插入图片描述

pop = pd.read_csv('./data/state-population.csv')
pop

在这里插入图片描述

area = pd.read_csv('./data/state-areas.csv')
area

在这里插入图片描述

将各州数据【abb】和人口数据【pop】进行合并

使用outer:保证数据完整性
[Python3]pandas.merge用法详解

abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')
abb_pop.head()

在这里插入图片描述

将合并后的数据列进行删除： abbreviation

# inplace作用在原DataFrame上
abb_pop.drop(labels='abbreviation',axis=1,inplace=True)
abb_pop.head()

在这里插入图片描述

查看表中的缺失数据

info()
isnull().any(axis=0)⭐

abb_pop

最低0.47元/天解锁文章

胜天半月子

关注

15
点赞
踩
46

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录