回归分析(一)
1.一些变量之间是有关联的,但是它们之间的关系又不能用普通函数来表示,这类非确定性关系为相关关系。
2.具有相关关系的变量可以借助于函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。
3.回归分析是研究两个或两个以上变量的相关关系的一种重要的统计方法。根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并因此对相应的变量进行预测和控制等。
一元线性回归模型
1.模型确定
一般地,当随机变量Y与普通变量x之间有线性关系时,设
其中ε是随机误差
(假设有Xij ~ N(μi,σ^2) (μi 和 σ^2未知),
即有X ij - μ i ~ N(0,σ^2)
故X ij - μ i 可被视为随机误差,记为X ij - μ i =ε ij。
X ij为试验数据,各个总体的均值μ i),
β0,β1为待定系数。
回归分析就是根据样本观察值来求β0,β1的估计。
在线性模型中,由假设知
Y~N(β0+β1x,σ^2),E(Y)=β0+β1x。
对于给定的x值,取
作为E(Y)=β0+β1x的估计。上列表达式称为Y关于x的线性回归方程或经验公式,其图像称为回归直线,β1称为回归系数。
2.最小二乘估计(寻求β0与β1的估计)
给定样本的一组观察值(x1,y1),…,(x n,y n),对每个x i
,由线性回归方程都可以确定一回归值:
这个回归值与实际观察值之差:
刻画了y i与回归直线的偏离度。
令
(它表示所有观察值y i与回归直线的偏差平方和,刻画了所有观察值与回归直线的偏离度。)
(对所有的x i,y i与实际观察值的偏离越小,则认为直线与所有试验点拟合得越好)
求
利用微分的方法,求Q关于β0与β1的偏导数,并令其为零,整理,得:
称此为正规化方程组,解正规方程组得:
若记
则
称为β0,β1的最小二乘估计。
为Y关于x的一元经验回归方程。
(最小二乘估计的性质:
定理1:若^β0, ^β1分别是β0,β1的最小二乘估计,则 ^β0, ^β1分别是β0,β1分别是β0,β1的无偏估计,且
)
3.回归方程的假设检验
由线性回归模型Y=β0+β1 x+ε,ε~N(0, σ^2)可知,当β1=0时,就认为Y与x之间不存在线性回归关系。
故需检验如下假设:H0:β1=0,H1:β1不等于0
为检验假设H0,先分析样本观察值y1,y2,…,yn的差异。
可以用总的偏差平和来度量,记为
由正规化方程组,有:
令
则有S总=S剩+S回(总偏差平方和分解公式)
(S剩是由试验误差以及其他未加控制的因素引起的它的大小反映了试验误差及其他因素对试验结果的影响)
(S回是由普通变量x的变化引起的它的大小(在与误差相比下)反映了普通变量x的重要程度)
(定理2
在线性模型假设下,当H0成立时,β1的估计与S剩相互独立,且
S剩 /σ^2 ~χ^2(n-2), S回/σ^2 ~χ^2(1))
对H0的检验有三种本质相同的检验方法:
1.t检验法
2. F检验法
3.相关系数检验法
(1)t检验法
由定理1,得
故
若令
则由定理2知,当H0成立时, ^ σ2为σ2的无偏估计,有
且
与
相互独立。
故取检验统计量:
由给定的显著性水平α,查t分布表得 t α/2 (n-2),
根据试验数据(x1,y1),(x2,y2),…,(x n,y n)计算T的值 t。
当|t|> t α/2 (n-2)时,拒绝H0,这时回归效果显著
当|t|< t α/2 (n-2)时,接受H0,此时没有理由认为回归效果显著
(2)F检验法
由定理2,当H0为真时,取统计量:
由给定的显著性水平α,查F分布表得F α (1,n-2),
根据试验数据(x1,y1),(x2,y2),…,(x n,y n)计算F的值F0.
若F0>Fα(1,n-2),拒绝H0,即回归效果显著
若F0<=Fα(1,n-2),接受H0,即没有理由认为回归效果显著
(3)相关系数检验法
相关系数的大小可以表示两个随机变量线性关系的密切程度。
对于线性回归中变量x与Y,其样本的相关系数为
它反映了普通变量x与随机变量Y之间的线性相关程度。
故取检验统计量为R,
则对给定的显著性水平α,查相关系数表得 r α (n-2),
根据试验数据(x1,y1),(x2,y2),…,(x n,y n)计算R的值r。
当|r|> r α (n-2)时,拒绝H0,即回归效果显著
当|r|<= r α (n-2)时,接受H0,即没有理由认为回归效果显著。