线性回归模型
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合
问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量 y 与自变量
x
1
,
x
2
,
.
.
.
,
x
m
x_1,x_2,...,x_m
x1,x2,...,xm 之间的回归模型(经验公式);
(ii)对回归模型的可信度进行检验;
(iii)判断每个自变量
x
i
(
i
=
1
,
2
,
.
.
.
,
m
)
x_i(i=1,2,...,m)
xi(i=1,2,...,m)对 y 的影响是否显著;
(iv)诊断回归模型是否适合这组数据;
(v)利用回归模型对 y 进行预报或控制。
§2 一元线性回归
2.1 模型
一元线性回归的模型为
y
=
β
0
+
β
1
x
+
ε
y = β_0+β _1x + ε
y=β0+β1x+ε ,
式中,
β
0
,
β
1
β_0 ,β _1
β0,β1 为回归系数, ε 是随机误差项,总是假设总是假设
ε
−
N
(
0
,
σ
2
)
ε- N (0,σ^2)
ε−N(0,σ2),则随机变量
y
−
N
(
β
0
+
β
1
x
,
σ
2
)
y-N(β_0+β _1x,σ^2)
y−N(β0+β1x,σ2)
若对 y 和 x 分别进行了n 次独立观测,得到以下 n 对观测值
(
y
i
,
x
i
)
,
i
=
1
,
2
,
.
.
.
n
(y_i,x_i),i=1,2,...n
(yi,xi),i=1,2,...n
(2) 这n 对观测值之间的关系符合模型
y
i
=
β
0
+
β
1
x
+
ε
i
,
i
=
1
,
2
,
.
.
.
n
y_i = β_0+β _1x + ε_i,i=1,2,...n
yi=β0+β1x+εi,i=1,2,...n(3)
这里,
x
i
x_i
xi是自变量在第i 次观测时的取值,它是一个非随机变量,并且没有测量误差。
对应于
x
i
,
y
i
x_i,y_i
xi,yi是一个随机变量,它的随机性是由
ε
i
ε_i
εi造成的.
ε
i
−
N
(
0
,
σ
2
)
ε_i- N (0,σ^2)
εi−N(0,σ2)对于不同
的观测,当i ≠ j 时,
ε
i
ε_i
εi,与
ε
j
ε_j
εj 是相互独立的。
2.2 最小二乘估计方法