前言
这是我最近这段时间学习统计学以来的一个成果,我甚至不清楚这样的成果是不是真的能够印证出快递网点的派件量,但是这已经是尽我的最大限度努力在完成这一成果,其中对数据条目上的数据不一致而产生的误差都有标注。预测派件量以平和县下辖各乡镇为例。
1 全盘思路
由于平和县各镇的派件量不论是早前的数据还是近年的数据都无法查询得到(其行政层级过低),因此将借助于其他变量(类似于中间量的概念)与行政层级高的已知派件量的皮尔逊相关性分析,来对平和县各镇的派件量作预测,由于这当中的逻辑略微难以理解,以下用思维导图阐释:
需要解释的一点是,我之所以认为能够用与行政层级高的已知派件量相关性显著的中间量,来预测行政层级低的未知派件量,是因为我所选的高行政层级同所要预测的低行政层级都处于同一个省,具有地缘上、文化上、经济上、政治上、历史上的共性特征。在无法得知切实的派件量时,我所想出来的办法就是这样。
为确保预测的精准性,这些中间量将会是平和县各镇所查得到的最新数据(这些数据来源于国家统计局发布的《2017中国县域统计年鉴(乡镇卷)》[1]中平和县各镇的数据及其2010年的第六次全国人口普查[2]所公报的有关平和县下辖乡镇人口数据,后文附录将附上详细的数据量表),其中所记录的数据是相当有限的,有且仅有行政区域面积、常住人口、企业个数、企业从业人员、工业企业单位、城镇建成区常住人口这几个部分的数据,因此这几个仅有的数据只能作为中间量来预测了。高行政层级的(这里我所能找得到的已知派件量层级最低也必须到市级)中间量同时我也在数据搜罗中确保数据是所能查到的最新数据,并且后文会给出对这些数据的误差脚注。
2 预测防控:两种备选已知派件量数据
1 两种备选数据的个案摘要
与此同时,为防避已知数的派件量数据与中间量所测出来的相关性都极弱,因此已知数需要有备选数据——这些备选数据必须是与派件量数据相关性极强的,目前所能找到的备选数据包括互联网用户和邮路单程长度这两种数据(2017年)[3],如下表SPSS所导出的个案摘要所示,其中快递业务(万件)即已知的派件量数据:
然而这两种备选数据能否作为替代派件量(快递业务)的判断依据不能单凭主观臆断,因此将会对其进行相关性分析,结果如下:
2 两种备选数据同派件量的相关性分析
相关性 |
||||
|
互联网用户(万户) |
快递业务(万件) |
邮路单程长度(公里) |
|
互联网用户(万户) |
皮尔逊相关性 |
1 |
.881** |
.826** |
显著性(双尾) |
|
.001 |
.006 |
|
个案数 |
10 |
10 |
9 |
|
快递业务(万件) |
皮尔逊相关性 |
.881** |
1 |
.595 |
显著性(双尾) |
.001 |
|
.091 |
|
个案数 |
10 |
10 |
9 |
|
邮路单程长度(公里) |
皮尔逊相关性 |
.826** |
.595 |
1 |
显著性(双尾) |
.006 |
.091 |
|
|
个案数 |
9 |
9 |
9 |
|
**. 在 0.01 级别(双尾),相关性显著。 |
因为我们只需要得知派件量(快递业务)与两种备用数据(互联网用户及邮路单程长度)之间的相关性,因此只需要观察表中“快递业务”一行与“互联网用户(万户)”“邮路单程长度(公里)”这两列的相关性结果分析:
1.快递业务与互联网用户的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 10,代入上式;
得到:
在快递业务与互联网用户间存在显著的正相关关系,,
。
2.快递业务与邮路单程长度的相关性(APA格式)
根据自由度公式:
其中:N为样本量,即表中的个案数,N = 9,代入上式;
得到:
在快递业务与互联网用户间存在显著的正相关关系,,
。
从以上对两者进行相关性的分析,可以得出这样一个结论:两种替代数据与被替代的派件量(快递业务)数据均存在显著的正相关关系,并且互联网用户与被替代数据的正相关程度远大于邮路单程长度,因此这两种数据均可以作为派件量的替代数据以防避已知数的派件量数据与中间量相关性都极弱情况的发生。
4.3 高行政层级下的中间量与派件量的相关性分析
4.3.1高行政层级(福建省市级)中间量的数据处理
由于要将所得到的数据转换为符合我们所需要的数据呈现形式,因此需要对部分原始中间量数据作一定形式的改变和处理:
1.行政区域面积与常住人口数的数据,就我所作出的假设分析来说,单纯的行政区域面积与派件量的相关性不大,而人口密度[4]则有着较为明显的相关性,这是我所作的假设,SPSS的分析会检验该假设。在假设成立的情况下,理应对行政区域面积的原始数据作出二次处理,在将处理结果保留到小数点后五位的情况下,将这一数据结合常住人口数作比例转换,分子为常住人口数,分母为行政区域面积。
2.年龄分层人数的数据,就上面所作的相关性分析可知:互联网用户数与派件量有着显著的正相关,而互联网用户数大多数情况下是年轻人,即在年龄分层中属于15-64岁之间的人群,当然也有部分是0-14岁的学龄前儿童,而对于65岁及其以上的年龄分层就与本次所要预测的派件量相关性小,因此不宜将原始数据照搬来研究。必须对于这种类似的数据进行二次处理以符合我们研究的需要,在此我的处理是在将处理结果保留到小数点后五位的情况下,将人数换算成比例,分子为0-14岁与15-64岁的人数之和,分母是所有年龄之和。
3.男女性别比的数据,就我所作出的假设分析来说,近年来受消费主义的影响,网购和派件量产生大头基本上以女性为主导,这是我所作的假设,SPSS的分析会检验该假设。在假设成立的情况下,为了保证最后的结果分析呈现的是正相关,而非负相关。因此原始数据中除了要将该比例精确至小数点后五位之外,还需要将女性人数作分子,户籍总人口(男女性人数之和)作分母。
以下就预测模型思维导图所罗列的中间量,绘制成表:
原始中间量 |
原始数据来源 |
年份 |
备注 |
是否二次处理 |
处理方式 |
行政区域面积 |
福建省统计局[5] |
2017 |
|
是 |
两者之差转换成比例 (保留到小数点后五位) 分子为: 常住人口数 分母为: 行政区域面积 |
常住人口数 |
福建省统计局[6] |
|
|
||
城镇化水平 |
福建省统计局[7] |
2017 |
|
否 |
|
企业法人单位数 |
福建省统计局[8] |
2017 |
|
否 |
|
年龄分层人数 |
福州市统计局[9] |
2015 |
年份问题见脚注 |
是 |
转换成比例 (保留到小数点后五位) 分子为: 0-14岁与15-64岁 人数之和 分母为: 所有年龄之和 |
厦门市统计局[10] |
2015 |
年份问题见脚注 |
|||
莆田市统计局[11] |
2018 |
|
|||
三明市统计局[12] |
2017 |
|
|||
泉州市统计局[13] |
2018 |
数据不一致见脚注[14] |
|||
漳州市统计局[15] |
2018 |
数据不一致见脚注[16] |
|||
南平市统计局[17] |
2018 |
|
|||
龙岩市统计局[18] |
2017 |
年龄构成数据只有百分比,没有具体人数 |
|||
宁德市统计局[19] |
2017 |
年龄构成数据只有百分比,没有具体人数 |
|||
男女性别比 |
福建省统计局[20] |
2017 |
|
是 |
(保留到小数点后五位) 分子为: 女性人数 分母为: 户籍总人口 |
3 高行政层级(福建省市级)中间量处理后的个案摘要
不同于原始中间量,而是经过上表所述的二次处理后的中间量数据,如下表SPSS所导出的个案摘要所示:
个案摘要a |
||||||
|
人口密度(万/平方公里) |
城镇化水平(%) |
企业法人单位数(个) |
小于64岁人数比重(%) |
女性人数比重(%) |
|
福州市 |
.00618 |
69.5 |
153076 |
90.38718 |
48.93632 |
|
厦门市 |
.23597 |
89.1 |
160593 |
93.98964 |
50.51744 |
|
莆田市 |
.07020 |
59.6 |
31626 |
89.68966 |
48.89052 |
|
三明市 |
.01119 |
59.0 |
34616 |
86.57588 |
47.71406 |
|
泉州市 |
.07664 |
65.7 |
177189 |
85.54904 |
48.18881 |
|
漳州市 |
.03960 |
57.7 |
70247 |
83.68829 |
48.68490 |
|
南平市 |
.01020 |
55.8 |
44640 |
84.21933 |
48.42653 |
|
龙岩市 |
.01387 |
55.7 |
31252 |
87.38000 |
48.14334 |
|
宁德市 |
.02159 |
55.7 |
44902 |
86.73000 |
47.57356 |
|
总计 |
个案数 |
9 |
9 |
9 |
9 |
9 |
a. 限于前 100 个个案。 |
4 高行政层级处理后的中间量与派件量的相关性分析
如下表SPSS所导出的皮尔逊相关性分析所示:
相关性 |
|||||||
|
人口密度(万/平方公里) |
城镇化水平(%) |
企业法人单位数(个) |
小于64岁人数比重(%) |
女性人数比重(%) |
快递业务(万件) |
|
人口密度(万/平方公里) |
皮尔逊相关性 |
1 |
.871** |
.534 |
.680* |
.829** |
.291 |
显著性(双尾) |
|
.002 |
.138 |
.044 |
.006 |
.447 |
|
个案数 |
9 |
9 |
9 |
9 |
9 |
9 |
|
城镇化水平(%) |
皮尔逊相关性 |
.871** |
1 |
.764* |
.806** |
.859** </ |