线性回归分析
历史背景
英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:
儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。
也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。
目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
两变量之间的关系
(1)函数关系:当自变量取值一定时,因变量取值由它唯一确定。————确定关系。
(2)相关关系:当自变量取值一定时,因变量的取值带有一定的随机性。(例子:一块农田的水稻产量与施肥量之间的关系)————不确定关系。
这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。 但它们之间存在明显的相互关系(称为相关关系),又是不确定的。
——————————————————————————————————————————————————————————————————————————————
回归分析:
定义1:是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。
定义2:对具有相关关系的两个变量进行统计分析的方法叫回归分析。
1)回归分析本质:寻找相关关系中非确定性关系的某种确定性。
2)回归分析的意义:相关关系到处存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系则是一种非常普遍关系。研究和学习相关关系,不仅可以使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度。
一. 一元线性回归
1.一元线性回归是研究一个自变量与一个因变量的统计关系。
例:人均收入X 与人均食品消费支出 Y 的散点图的关系如图。
这两个变量之间的不确定关系,可以用下式表示:
式中:
人均食品消费支出Y是被解释变量;
人均收入X是解释变量;
b1,b2是待估计参数;
u 是随机干扰项,且与 X 无关,它反映了 Y 被 X 解释的不确定性。
如果随机干扰项 u 的均值为 0,对上式求条件均值,有
反映出从“平均”角度看,是确定性关系。
线性回归的任务:
就是用恰当的方法,估计出参数 b1, b2 ,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。
如果把X,Y的样本观测值代到线性回归方程中,就得到
从重复抽样的角度看, Xi,Yi也可以视为随机变量。
高斯基本假设
对于线性回归模型
高斯基本假设如下:
(1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不确定关系).
(2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 b1 中).
(3) Var(ui) =s2u , 随机干扰项的方差等于常数(本假设有可能不成立, 以后讨论不成立时如何处理).
(4) E(uiuj)=0 (i¹j) 随机干扰项协方差等于零(本假设有可能不成立, 以后讨论不成立时如何处理).
(5) ui服从 N(0, s2u )分布;
(6) E(Xiuj)=0, 对Xi 的性质有两种解释:
a. Xi视为随机变量, 但与uj无关, 所以(6)成立.
b. Xi视为确定型变量, 所以(6)也成立.
普通最小二乘法(OLS)
设线性回归模型
其中 为b1, b2 的估计值, 则Y 的计算值Ŷ, 可以用下式表达:
所要求出待估参数 , 要使 Y 与其计算值Ŷ之间的“误差平方和”最小. 即: 使得
最小.
为此, 分别求Q 对 求偏导, 并令其为零:
由上两式, 就可求出待估参数的值.
所求参数的计算公式
二. 多元线性回归
本节要研究一个被解释变量 (因变量) , 多个解释变量(自变量)的线性模型, 即
基本假设:
(1) u 为随机变量向量 ;
(2) E(u) =0;
(3) cov(u) =E(uuT) = s2u In (包含了两个其本假设:一是不存在序列相关,即 i¹j 时, cov(ui, uj)=E(uiuj)=0;二是具有同方差性(齐次方差性), 即Var(ui) =s2u ).
(4) u ~ N(0, s2u In )
(5) E(XTu) =0 , 或者, X 为确定矩阵
(6) 秩 r ( X ) = k, ( k<n)
——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————
reference:
http://wenku.baidu.com/view/6739eed026fff705cc170a19.html###
http://wenku.baidu.com/link?url=9eoVcWGLP__OgdxHvRoF7EE4znaohXj34QYVQ-_upZy3kB3PrIOhyRxOPeBWkDcqWsXwmZ7SW5RH8nu0Ug_01N0hhdJ47v9vB_P9KVar23y