今天是用人口分析作为案例项目,进行数据分析的综合运用。
这是我们今天的目标。
首先还是老样子导入库
然后我们导入所需要的数据,使用read就行了。
然后则是使用merge将几个表合并,我们先将州的缩写表与人口表进行合并,可以发现在州的缩写上即使索引有所不同但内容是一样的,这个时候就可以使用merge的left 与right进行合并
然后使用drop将重复的缩写进行删除。
之后我们要查看是哪里缺少了数据,这在项目中是十分常见的,这里有两种方法:
这里使用info()可以发现行数中应该是2544但有的列并不是2544个数据,就可以发现缺少数据的列。
或者可以用isnull().any进行布尔值的判定。
我们先对state进行分析看看是哪些州只有简写没有全称。
这里用isnull()加上loc可以找到所有state含nan值的州,并且使用unique()进行去重。
得到了是pr和usa,发现一个是联邦自治区一个是美国简称。
我们给它写上名字(单独的index仅仅是为了自己查看用的不需要加),这里是查出符合简称的州,然后通过索引给他重新赋值。
然后我们将面积的表也进行合并
这里的nan我们直接去掉就可以了(使用outer是为了nan值不被去掉)。
按照之前的方法查找缺失的数据,然后发现USA没有面积的数据,按照上面的要求直接去除就可以了。
然后按照要求我们要将2010年的数据提取出来。
这里其实只需要使用query将ages和year进行条件筛选进行提取就可以了这里&和|分别是代表与和或运算。
计算密度只需要将人口除以面积则可获得,然后将其合并。
之后则是进行排序。
这里使用sort函数,by是排序根据,ascending则是选择升序或者降序。
想要取得最大值的话只要使用max就可以了
人口分析案例
最新推荐文章于 2023-11-15 09:43:10 发布