人口分析与预测

一、数据处理
数据集populations根据年份排序为倒序,利用sort_index函数根据数据集中得年份进行从小到大排序。
代码:df2=df.sort_index(ascending=0)
排序后结果:
在这里插入图片描述
处理每个属性数据,单独拿出进行变化,格式变为预测所需要格式。
1.变化“时间”属性
在这里插入图片描述
2.因为时间中有中文格式,现在把其去掉中文字转换为单纯数字
在这里插入图片描述
3.将数据放入array数组中
在这里插入图片描述
4.变换array中数组的格式
在这里插入图片描述
剩下的属性变化形式相同与“时间”属性的变化形式。最后用于预测数据。
增加预测数据,增加到2022年
在这里插入图片描述

二、数据分析

利用describe函数总结数据集分布的中心趋势,分散和形状,不包括NaN值。DataFrame.describe(percentiles=None,include=None,exclude=None),可以快速的求出一些算术运算指标。
代码:df2.describe()
运行结果:
在这里插入图片描述
数据分析中时使用数据可视化则可以让数据变得显而易见,所以下面要进行画图来说明数据中的关系。
首先为了保证不乱码以及图像中能够正常的显示中文标签,要利用函数rcParams进行操作:
代码:plt.rcParams[‘font.sans-serif’] = 'SimHei’来指定默认的字体
plt.rcParams[‘axes.unicode_minus’] = False 来解决保存图像是负号‘-’显示为方块的问题。
其次为了更清晰合适的观察图像,设置幕布大小也是比较重要的。这里用到的是matplotlib.figure函数。
代码:plt.figure(figsize=(15,12))
而后也可以设置轴上的文字方向。代码:plt.xticks(rotation=0) ,可以改变rotation的大小来改变文字的倾斜程度。
下面正式进入到可视化的直接可视阶段。
Populations数据集中总共有6个特征,分别为年末总人口、男性、女性、城镇、乡村人口和年份。
1.散点图
利用散点(坐标点)的分布形态反映变量统计关系的一种图形。特点是能直观表现出影响因素和预测对象之间的总体关系趋势。优点是能通过直观醒目的图形方式反映变量间关系的变化形态,绘制“时间”与“男性”,“女性”,“城镇”,“乡村”散点图。
代码:
在这里插入图片描述
结果图:

在这里插入图片描述

结论:可以从此散点图看出,从1996年到2015年之间,我国总人口是呈增长趋势的,男性与女性人口数也分别在缓慢的增长,相反的乡村人口在持续下降,而城镇人口在上升。
2.折线图
折线统计图用折线的起伏表示数据的增减变化情况。不仅可以表示数量的多少,而且可以反映数据的增减变化情况。下面来绘制“时间”与“年末总”的折线图。
在这里插入图片描述
结果图:
在这里插入图片描述
结论:利用时间与年末总两个属性来看折线图,因为年末总的数据增长的比较平缓,所以没有很大的折线波动,折现比较的均匀平滑,可以看出我国人口在随着时间的增长在平稳的增长中。
3.点线图
点线图。其画法是,将点按一定方式连接起来,形成直线或曲线。下面我们利用属性“时间”与“男性”“女性”“城镇”“乡村”的关系来进行绘制。
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:点线图也可以反应各个属性的增长与减少情况。根据每一年人口数所确定的点而连接的点线,能看到没两个点之间的增长或减少速度变化。
4.直方图
直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计, 一般用横轴表示数据类型,纵轴表示分布情况。下面绘制“男性”“女性”“城镇”“乡村”四个属性的直方图,Y轴为属性的人口数量。
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:可以从上面直方图看出到2015年男性人口高于女性人口,城镇人口明显高于乡村人口。且男性于女性相差不是很多,而城镇与乡村之间的人口差距却相差较多。

绘制各年份男女人口数目直方图
单独绘制年份与男女人口数目的直方图,可以很直观的感受到男女人口数目的差距
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:蓝色为男性人数,橙色为女性人数。可以从图中看出,男性与女性人数随着时间的增长都在呈增长的态势。并且男性人口数目比女性人口要多,中间部分的时候男性比女性增长的速度稍微快一点。并且男性一直处于比女性人口多的状态。
绘制各年份城乡人口数目直方图
下面来直观的感受一下城镇和乡村人口的差距情况。
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:蓝色为乡村人口。橙色为城镇人口。可以看出城镇人口和乡村人口随着时间的变化都有很大的变化,乡村在2010年钱一直多余城镇人口,到2010年后城镇人口反超于乡村人口。城镇随着时间的推移在慢慢增加,相反的乡村人口随着时间的推移在慢慢的减少。

5.饼图
饼图可以解决需要计算各个属性的比例情况,一般通过相除的方法来计算比例表示方法比较抽象,这个时候使用饼图就能够直接以图形的方式直接显示各个属性所占比例。
下面利用饼图来查看并分析我国人口的男女比例:为了能更好的展现我国得人口结构变化,我们来分析一下男女比例从1996年到2015年之间所经历得变化。
首先看一下1996年男女比例:
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
再来看一下2015年男女比例:
代码:
在这里插入图片描述
结果图:
在这里插入图片描述

结论:可以看出1996年时男性所占比例比女性多1.6%,相对来说女性比例还是比较相似的,几乎是各占一半。到2015年时男性占比增加,女性占比减少,男性比例大于女性比例,多出了2.3%,相较于1996年比例差有所上升,但可以看出男女比例基本稳定。
下面是城乡人口比例从1996年到2015年变化:
首先看一下1996年城乡比例:
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
再来看一下2015年城乡人口比例:
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:从饼图数据可以看出1996年城镇乡村人口比例差距很大,甚至乡村人口是城镇人口的两倍。可以看出我国当时的人口结构为乡村人口占据多数,说明人民生活水平还不够高。但是通过我国得迅速发展,城镇人口逐年递增,到2015年城镇人口已经比乡村人口多了12.2%,可以反应出到2015年我国的人口结构已变成了城镇人口占据多数,说明了我国人口城镇化,并且人民生活水平得到了提高。

6.箱线图
箱线图是一种用作显示一组数据分散情况资料的统计图。下面来对人口数据集各属性进行绘制并分析。
男性女性箱线图绘制:
代码:
在这里插入图片描述

结果图:
在这里插入图片描述
结论:可以看出男性箱子的中线位于67000-68000左右,所以男性数据的中位数在此处,也能代表男性人口平均数在此,女性人口的中线位于63000-64000,与男性数据同理;箱子的上下限分别表示上四位数和下四位数,男性数据的中线更靠近上四位数,女性的数据更靠近下四位数,箱子的上方线与下方线代表最大值和最小值,可以从图中看出男性与女性的箱子宽度不大,说明数据的波动程度不大。
城镇乡村箱线图绘制:
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:与上面男性女性箱线图的看法相同。可以看出城镇中位数位于55000-60000,而且中位线更靠近下四位数最大值与最小值相差较多,所以箱线图的宽度比较大。乡村的中位线位于75000左右,并且中位线更靠近上四位数,最大值与最小值相差相比城镇来说小很多,但相差数也有20000多,所以其中也可以算是跨度比较大。

三、数据预测

根据所有的现有数据,对未来数据进行预测,下面预测2016年到2022年人口数、男女比例、城乡人口比例。下面用于预测的的类型为线性回归(Linear Regression)
所增加的2016年到2022年数据在第一章数据处理中有介绍
1.预测2016年到2022年人口数
导入线性回归(Linear Regression)包
在这里插入图片描述
使用predict进行预测,并画出1996年到2015年预测图
在这里插入图片描述
结果图:
在这里插入图片描述
结论:图中点位数据本身的数据,红色的线位预测的数据,可以看出,预测数据在真实数据上下波动很小。甚至有与实际数据相重叠的地方,说明预测结果不错。
下面进行未来人口数据预测,从2016-2022年
所增加的预测年数已经在第一章进行介绍,还是利用线性回归中的predict进行预测,并画出了预测图
在这里插入图片描述
结果图:
在这里插入图片描述
结论:绿色点图为预测结果,可看出预测结果为2016-2022年人口将还是呈增长趋势,在逐年递增。符合原数据规律,所以预测结果算是成功的。
2.分析预测2016-2022年人口男女比例
将处理后的“男性”“女性”数据进行计算男女比例。
在这里插入图片描述
Predict函数预测随时间的影响男女比例的变化情况(1996-2015年),并画图表示
在这里插入图片描述
结果图:
在这里插入图片描述
结论:因为1996年到2000年之前的男女比例相对来说不是很稳定,所以在真实数据下这期间的数据比例是有所波动的,但到2000后男女比例趋于平稳,数据变化幅度不大,所以红线预测数据取到了大多数数据的特点。
加入2016-2022年的时间数据,对未来男女比例进行预测,并画图表示
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:绿色点状为预测结果,可以看出男女比例的预测线有微微下降的趋势。
3.分析预测2016-2022年城乡人口比例
第一章处理后的“时间”“城镇”“乡村”拿到此处用。计算出城乡人口比例,来反映城乡人口变化的方向,用预测2016-2022年城乡人口比例变化情况来说明未来城乡人口的变化趋势。
计算城乡人口比例,查看1996-2015年数据预测
在这里插入图片描述

结果图:
在这里插入图片描述
结论:预测结果与实际数据都是呈上升趋势,逐年递增。下面来看一下未来的城乡人口变化。
加入2016-2022年份数据,用predict函数进行预测,并画出预测图
代码:
在这里插入图片描述
结果图:
在这里插入图片描述
结论:根据预测结果可以看出,未来城乡比例还将持续逐年上升。城镇人口越来越多,乡村人口越来越少,很有可能会成为耕地面积越来越少,过于城镇化的现象。;根据实际数据的变化趋势,可以看出预测数据发生的机率很大。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值