统计学习
最近在处理数据的时候发现自己对统计理论的掌握还有所欠缺,因此开始了这趟补习之路,提高自己的数据处理能力,增强自己的基础,写下这份帖子,作为学习成果的检验,以及方便后来的同学。
经典正态线性回归模型(CNLRM)
y=β1x+β0
y
=
β
1
x
+
β
0
β^1=β1+∑(xi−x¯¯¯)ϵi∑(xi−x¯¯¯)2
β
^
1
=
β
1
+
∑
(
x
i
−
x
¯
)
ϵ
i
∑
(
x
i
−
x
¯
)
2
基本假设
中心极限定理, β^1 β ^ 1 近似服从正态分布,抽样随机关键假定 yi=β0+β1Xi+ϵi y i = β 0 + β 1 X i + ϵ i 式真实模型,当然我们并不知道各参数的真实值是多少。
基本检验
普通最小二乘法假设检验:
统计检验分为两类:1方程的显著性(模型正确与否)2变量显著性(参数是否不为0)
基本假设公式:
1正态分布:
假设
Z服从N(μ,σ2)
Z
服
从
N
(
μ
,
σ
2
)
则Z的概率密度
f(x)=1σ(√2π)∗e−(x−μ)22σ2−∞≤x≤∞
f
(
x
)
=
1
σ
(
2
π
)
∗
e
−
(
x
−
μ
)
2
2
σ
2
−
∞
≤
x
≤
∞
2
χ2
χ
2
分布
如果随机变量
Z1,Z2,⋯,Zn都是独立同分布于N(0,1)
Z
1
,
Z
2
,
⋯
,
Z
n
都
是
独
立
同
分
布
于
N
(
0
,
1
)
=>
U=Z21±Z22±⋯±Z2n
U
=
Z
1
2
±
Z
2
2
±
⋯
±
Z
n
2
服从
χ2(n)
χ
2
(
n
)
分布
3
t
t
分布 :
如果,且U,Z是独立的,则
我们可以推出:
=>
t=Z(√Un)
t
=
Z
(
U
n
)
服从t分布
4
F
F
分布:
,U,V,独立
=>
F=UmVn
F
=
U
m
V
n
服从F(m,n分布)。
5
X1,⋯,X2,⋯Xn
X
1
,
⋯
,
X
2
,
⋯
X
n
服从
N(μ,σ2
N
(
μ
,
σ
2
,
S2=1n−1∑X2i
S
2
=
1
n
−
1
∑
X
i
2
=>
(n−1)s2σ2服从χ2(n−1)
(
n
−
1
)
s
2
σ
2
服
从
χ
2
(
n
−
1
)
6正态分布的线性组合,依旧服从正态分布。
额外说明
假设检验中必须对
ϵi
ϵ
i
的概率分布做出假定的。
假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些之和应该近似服从正态分布。除少数情形如Cachy分布为,随着变量个数增加,假设都满足。