确定性系数和相关系数
线性回归预测是通过一组统计观测数据确定最优拟合线性关系, 但我们需要对这种关系拟合的效果好坏进行评判,这种评判通常称为模型检验。评判的结论将直接影响人们对线性回归模型的信任程度,从而也影响对预测结果的信 任程度。评判的标准主要是拟合的误差,如果拟合误差比较小,拟合效果就好,预测结果的信任程度就高。如果拟合误差较大,拟合效果就不太好,严重时还必须重 新考察历史数据、选择变量,再重新拟合。为了评判误差产生程度,我们介绍两个基本定量评判指标。
1.确定性系数
如果因变量的一组统计观测数据y i(i=0,1,…,n)的平方值为y¯,所有统计观测数据值都分布在这个均值的上下,我们可以求出其总的误差平方和S总。计算公式为:
(4.4.11)
如果通过线性回归模型拟合的值为y^i,那么可以求出回归的误差平方和
S回。计算公式为:
(4.4.12)
可以认为回归的误差平方和S回是S总的一部分,也就是说回归模型部分解释了实际观测值对均值的偏离,而剩余部分为S剩,即
(4.4.13)
因此可以解释同时也可以写成
S总=S回+S剩
显然,回归模型拟合较好,则总的误差平方和S总越能够用回归的误差平方和S回来表示,模型所描述的线性关系就越准确。所以,我们定义确定性系数为回归的误差平方和占总误差平方和的比例,即
R=S回/S总 (4.4.14)
可以看出,R的值在0~1之间,如果R的值接近1,说明实际数据对均值的绝大部分都可以由回归明显来解释,模型的拟合效果就越好;如果R的值接近零,说明实际数据对均值的绝大部分都不能由回归明显来解释,即模型拟合得不好。
2.相关系数
相关系数是另一个很有用的评价指标。它的计算公式为:
r= (4.4.15)
回归模型的相关系数的数值取值在-1~+1之间。下面以一元回归模型说明r的取值与x同y的相关关系之间的联系。因为对于多元回归模型,r的计算方法完全相同,读者可以自行将结论推广到多元回归模型。
(1)当|r|=1时,样本点完全落在回归直线上,则y与x有完全的线性关系,且r=1时,表示y与x完全线性正相关,r=-1时,表示y与x完全线性负相关,如图4—7(a),(b)所示。
(2)当0<r<1时,表示y与x有一定的正线性相关关系,即y随x的增加而成反比例倍数增加,如图4—7(c)所示。
(3)当-1<r<0时,表示y与x有一定的负线性相关关系,即y随x的增加而成比例的倍数减少,如图4—7(d)所示。
(4)当r=0时,则说明y与x之间不存在线性关系相关关系,或者是两者之间确实没关系,或者是两者之间不存在线性关系,但可能存在其它关系,
例4﹒5 某企业固定资产x1、职工人数x2和利润总额y的统计数据如表4—8中的前三例所示。试建立以x1,x2为自变量的利润回归预测模型。并预测当企业固定资产为350万元、职工人数为190人时的利润总额。
解 (1)建立线性回归预测模型。
K=2, n=10,采用手工方法,先计算有关项如表4—8所示。于是有
表4—8 某企业固定资产、职工人数和利润总额的统计数据
年份 |
|
|
|
|
|
|
|
|
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 | 233 238 261 264 270 273 285 298 304 315 | 250 257 271 290 300 296 311 320 325 338 | 161 163 167 169 171 176 180 181 185 187 | 62500 66049 73441 84100 90000 87616 96721 102400 105625 114244 | 25921 26569 27889 28561 29241 30976 32400 32761 34225 34969 | 40250 41891 45257 49010 51300 52096 55980 57920 60125 63206 | 58250 61166 70731 76560 81000 80808 88635 95360 98800 106470 | 37513 38794 43587 44616 46170 48048 51300 53938 56240 58905 |
| 2741 | 2958 | 1740 | 882696 | 303512 | 517035 | 817780 | 479111 |
设待建的二元线性回归预测模型为:
根据式(4·9·9),
解上述的三元一次方程组,得
=-106.7218
=0.498 921
=1.340 47
求得二元线性回归预测模型为
(2)确定系数和相关系数的检验
先计算有关平方和
于是
确定性系数R的值说明回归误差可以解释大部分的实际偏差,同时相关系数r的值也说明y与x1和x2之间的线性关系是十分满意的,因此本模型的拟合效果较好。
(3)预测
将x1=350,x2=190代入预测模型,得到利润总额的预测值为