1、问题的提出
考察自变量对因变量的影响时, 可能其中有些自变量如只对因变量有影响, 而另外一些自变量则对其它因变量有影响, 多对多逐步回归无法判断哪些自变量对哪些因变量有影响。实际情况有时可能是一部分因变量与一部分自变量有密切关系, 而另一部分因变量与另一些自变量有密切关系等等。而与不会有共同的变量, 但与可能有共同的变量, 因为一个自变量可能会对许多不同的甚至全部都有影响。双重筛选逐步回归是一种逐步算法, 既能按照自变量与因变量的关系对因变量进行分组, 又能使每个自变量对各组因变量的影响都能反映出来, 最后分组建立回归方程。
2、双重筛选逐步回归的计算方法
个因变量和个自变量的双重筛选逐步回归计算过程:
第一步: 确定自变量和因变量的取舍标准;
设和分别为自变量和因变量的引入和剔除临界值, 则一般取
,
,
第二步: 任意选人一个因变量。设此时已引入个自变量(因子)和个因变量(预报量);
第三步: 逐个检查是否需要剔除自变量, 如有自变量被剔除则转回第三步;
第四步: 逐个检查是否需要引人自变量, 如有自变量被引入则转到第三步;
第五步: 逐个检查是否需要剔除因变量, 如有因变量被剔除则转到第三步;
第六步: 引入因变量(预报量), 转到第三步;
第七步: 计算回归方程。如果自第二步~第六步已引入个因变量, 则计算此组的个回归方程;
第八步: 删除已引入的因变量的数据而保留所有自变量的数据, 从第二步起继续计算下一组回归方程, 如此继续, 直到全部因变量都有了回归方程为止。
例6.1 为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本, 共测了12个因子, 各因子数据列于表6.1。
表6.1
序号 |
|
|
|
|
|
|
|
|
|
|
|
|
1 | 74.3 | 91.0 | 5.76 | 1.3 | 108 | 66 | 17.4 | 51.2 | 9.5 | 15.39 | 12.6 | 1 |
2 | 70.4 | 157.0 | 8.04 | 2.2 | 126 | 68 | 17.2 | 52.5 | 24.2 | 10.84 | 8.4 | 0 |
3 | 78.7 | 77.0 | 7.94 | 2.0 | 114 | 63 | 17.0 | 62.9 | 22.8 | 13.57 | 9.8 | 0 |
4 | 78.9 | 67.0 | 6.86 | 1.5 | 110 | 55 | 17.0 | 64.3 | 25.1 | 34.57 | 14.0 | 3 |
5 | 49.1 | 91.0 | 4.92 | 1.5 | 92 | 49 | 16.5 | 39.3 | 10.7 | 7.41 | 5.6 | 2 |
6 | 57.6 | 219.0 | 5.56 | 2.5 | 91 | 48 | 16.8 | 37.3 | 37.3 | 9.12 | 2.8 | 0 |
7 | 53.1 | 221.0 | 7.42 | 3.9 | 90 | 45 | 16.8 | 30.0 | 27.0 | 8.64 | 2.8 | 4 |
8 | 70.1 | 123.0 | 5.38 | 3.1 | 123 | 59 | 17.0 | 47.8 | 34.6 | 81.64 | 11.2 | 5 |
9 | 86.6 | 45.0 | 12.54 | 1.2 | 105 | 57 | 14.8 | 69.0 | 37.3 | 23.95 | 11.2 | 0 |
10 | 82.2 | 81.0 | 13.24 | 1.6 | 131 | 61 | 15.9 | 62.3 | 16.5 | 33.60 | 16.8 | 0 |
11 | 76.8 | 90.0 | 10.70 | 1.5 | 131 | 69 | 15.8 | 67.6 | 22.2 | 8.93 | 9.8 | 0 |
12 | 88.9 | 83.0 | 1.98 | 1.8 | 107 | 65 | 14.5 | 79.3 | 42.1 | 58.97 | 3.5 | 0 |
其中:
: 山地比例(%);
: 人口密度(人/);
: 人均收入增长率(元/年);
: 公路密度(100m/ha);
: 前汛期降水量(cm/年);
: 后汛期降水量(cm/年);
: 月平均最低温度(℃);
: 森林覆盖率(%);
: 针叶林比例(%);
: 造林面积(千亩/年);
: 年采伐面积(千亩/年);
: 火灾频数(次/年)。
按双重筛选逐步回归计算回归方程, 取, , 得到三组回归方程(详细的计算过程请参见多元回归分析经典例子的计算中的双重筛选逐步回归法计算的例子和结果):
第一组:
,
,
第二组:
,
,
第三组:
。
由计算结果看出, 森林覆盖率及年采伐面积受相同自变量影响, 主要影响因素为山地比例、人口密度、人均收入增长率及月平均最低气温的影响; 针叶林比例及火灾频数主要受公路密度及月平均最低气温影响; 造林面积主要受公路密度、人均收入增长率及山地比例的影响。
本系列转自:http://hutangao.blog.163.com/blog/static/4888314200982852442975/