一元线性回归
一元线性回归模型
一元线性理论回归模型为:
y
=
β
0
+
β
1
x
+
ε
y=β_0+β_1x+ε
y=β0+β1x+ε
- y y y 是因变量(被解释变量)
- β 0 β_0 β0 是回归常数
- β 1 β_1 β1 是回归系数
- x x x 是自变量(解释变量)
-
ε
ε
ε 是随机误差
- E ( ε ) = 0 E(ε)=0 E(ε)=0,均值是0(期望是0)
- v a r ( ε ) = σ 2 var(ε)=σ^2 var(ε)=σ2,方差为常数(误差在0上下波动的范围)
一元线性回归方程:
E
(
y
)
=
E
(
β
0
+
β
1
x
+
ε
)
=
>
y
=
β
0
+
β
1
x
E(y)=E(β_0+β_1x+ε)=> y=β_0+β_1x
E(y)=E(β0+β1x+ε)=>y=β0+β1x(因为随机误差不可能去度量,所以我们就认为这个理论回归方程的期望值就是我们想要的结果)
回归方程从平均意义上表达了变量y与x的统计规律性
回归分析的主要任务就是通过n组样本的观察值,对
β
0
、
β
1
β_0、β_1
β0、β1进行估计,得到最终方程
一元线性回归的参数估计
根据已有的数据或信息(x和y值),去估算未知参数(回归参数
β
0
、
β
1
β_0、β_1
β0、β1)的工作叫做参数估计。
常见的参数估计的方法:
最小二乘估计
最小二乘估计(Least Square Estimation,OLE):观察数据,寻找参数
β
0
、
β
1
β_0、β_1
β0、β1的估计值
β
^
0
、
β
^
1
\hatβ_0、\hatβ_1
β^0、β^1,使观测值和回归预测值的离差(离开实际值的差异,差的绝对值)平方和达到最小。估计值
β
^
0
、
β
^
1
\hatβ_0、\hatβ_1
β^0、β^1称作回归参数
β
0
、
β
1
β_0、β_1
β0、β1的最小二乘估计
例:
已知两组数据x、y,使用一元线性回归模型拟合两者之间的关系:
y
=
β
0
+
β
1
x
y=β_0+β_1x
y=β0+β1x。采用最小二乘估计回归方程中的系数
β
0
,
β
1
β_0,β_1
β0,β1,得到最终的回归方程
最大似然估计
最大似然估计(Maximum Likelihood Estimation,MLE):利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法。
基本思路:已知样本符合某种分布,但分布的具体参数未知,通过实验,估算分布的参数。
估算的思想为:已知某组参数能使当前样本出现的概率最大,就认为该参数为最终的估计值。
投掷一枚已知质地并不均匀的硬币,抛出正反面的结果符合二项式分布:
P
(
X
=
k
)
=
(
k
n
)
p
k
(
1
−
p
)
n
−
k
P(X=k)=(^n_k)p^k(1-p)^{n-k}
P(X=k)=(kn)pk(1−p)n−k,其中n和k为与实验相关的常数,p为出现正面的概率,也是待确定的参数。
将该硬币投掷i次,出现正面的次数为j,在没有其他更多信息的情况下,有理由相信
p
=
j
/
i
p=j/i
p=j/i
最大似然估计解决的是“模型已定,参数未知”的问题。即用已知样本的结果,去反推既定模型中的参数最可能的取值。
最大似然估计数学推导
有偏估计与无偏估计
参数估计的性质
一元线性回归的显著性检验
回归系数是否显著:t 检验
回归方程是否显著:F 检验
相关系数显著性检验:t 检验
决定系数
一元线性回归的残差分析
残差
残差图
残差的性质
残差改进
一元线性回归模型的应用
预测
新值区间预测
新值的均值区间预测
控制
例