线性模型介绍
线性回归模型是指自变量和因变量之间存在简单线性关系的模型。可以表示为:
y
i
=
β
0
+
∑
β
i
x
i
y{_i} ={\beta}{_0} +{\sum{\beta}{_i}x{_i} }
yi=β0+∑βixi
进一步而言如果将x0设定为1则模型可以化简表示为:
y
i
=
∑
β
i
x
i
y{_i} ={\sum{\beta}{_i}x{_i} }
yi=∑βixi
其中βi称之为系数或参数。上述模型使用矩阵表示为:
Y
=
B
X
Y
∈
R
1
×
n
;
B
∈
R
m
;
X
∈
R
n
×
m
Y = BX \qquad Y\in R{^{1 × n}} ; B\in R{^m};X\in R{^{n × m}}
Y=BXY∈R1×n;B∈Rm;X∈Rn×m
当n<m时,该方程为欠定方程(under-determined)有无穷多解;当n=m时,该方程有唯一解;当n>m时该方程为超定方程,可以使用最小二乘法等方法得出近似解。
其解法为:
B
=
(
X
T
X
)
−
1
X
Y
B = (X{^T}X){^{-1}}XY
B=(XTX)−1XY
具体推导过程略。
模型的评价标准
1、模型的整体评价标准
对于近似模型,可以使用残差平方和(RSS)或残差标准误(RSE)来定义模型的优度。
R
S
S
=
∑
e
i
2
RSS = \sum {e{_i}{^2}}
RSS=∑ei2
e
i
=
y
i
−
y
i
′
y
i
′
为
模
型
估
计
值
e{_i} = y{_i} - y{_i}{^{'}} \qquad y{_i}{^{'}}为模型估计值
ei=yi−yi′yi′为模型估计值
由于RSS随着训练集数据的增大而不断扩大因此可以使用残差标准误来减小训练集规模对模型度量的影响:
R
S
E
=
1
n
−
p
∑
e
i
2
RSE = \sqrt { \frac {1}{n-p} \sum {e{_i}{^2}} }
RSE=n−p1∑ei2
p为自变量的数目。(实际上残差标准误 使用的并不多)在同样规模的训练集上,两个模型使用RSS可以直观比较出拟合效果。RSS值小的模型拟合效果更好。
R2统计量是衡量模型拟合优度的另外一个标准:
R
2
=
T
S
S
−
R
S
S
T
S
S
R{^2} = \frac {TSS - RSS}{TSS}
R2=TSSTSS−RSS
总平方和(TSS)实际上就是方差,反映了数据自身的分布情况:
T
S
S
=
∑
(
y
i
−
E
(
y
)
)
2
TSS = \sum( {y{_i} - E(y)} ) {^2}
TSS=∑(yi−E(y))2
R2反映了模型对方差的解释程度,R2接近于1则反映模型可以解释数据整体方差的变异程度(实际上代表了数据分散程度特性),R2接近于0则表示模型无法解释模型的变异程度。
2、模型的变量选择评价标准
在某些情况下我们选择的自变量可能仅有一部分与因变量存在相关关系。模型自变量与因变量的相关程度可以使用一下几个统计量进行衡量:
(1)F统计量
F统计量的定义如下:
F
=
(
T
S
S
−
R
S
S
)
/
p
R
S
S
/
(
n
−
p
−
1
)
F = \frac {(TSS - RSS)/p}{RSS/(n-p-1)}
F=RSS/(n−p−1)(TSS−RSS)/p
当自变量与因变量无关时F = 1即模型无意义,当F值显著大于1时说明模型中至少有一个自变量与因变量存在显著的相关关系。
(2)t统计量
t统计量反映了模型中各个变量的显著程度,可以转化为p值从而直观的反映该自变量对因变量的相关程度。
注:不管是F统计量还是t统计量这里的原假设H0都是所有的变量与因变量无关,这一一般化结论。
3、模型的进一步优化
在实际模型优化的过程中,我们可能发现通过简单的线性模型并不能取得很好的拟合效果,或者部分变量之间存在共线性关系使得模型出现较多的冗余变量,或者是模型中部分自变量或者因变量的部分实例出现使模型出现了极为特殊的情况使得无法通过直观的模型拟合现有数据。
(1)模型非线性的发现
通过残差(ei = yi - yi’ )图可以发现模型非线性的特征,如果使用线性模型拟合得到的逐实例点残差图呈现一定的特征,这表明该模型可以使用更复杂的非线性模型进行拟合,可以尝试使用加入高次项或其他方式的非线性模型尝试拟合。
(2)剔除共线性关系
对于一般的二元共线性关系可以直接使用相关矩阵发现,但是对于三个及以上变量的共线性关系很难直接发现方差膨胀因子(VIF)是一种发现多重共线性关系的方法。
V
I
F
(
β
j
)
=
1
1
−
R
x
j
∣
x
−
j
2
VIF(\beta {_j}) = \frac {1} { 1 - R{_{x{_j}|x{_{ - j}}}{^2}}}
VIF(βj)=1−Rxj∣x−j21
其中
R
x
j
∣
x
−
j
2
{ R{_{x{_j}|x{_{ - j}}}{^2}}}
Rxj∣x−j2是xi对所有预测变量回归的R2。VIF值很大时说明模型存在严重的共线性。
(3)离群点和高杠杆点的排出
离群点是根据y的值进行判断,箱线图,学生化残差都可以发现离群点。
而如同多重共线性问题一样,高杠杆点是有x值引起的如果是有多个x值共同作用引起的则很难发现,使用杠杆统计量hi可以发现高杠杆点。
h
i
=
1
n
+
(
x
i
−
x
‾
)
2
∑
(
x
j
−
x
‾
)
2
h{_i} = \frac {1} {n} + \frac { (x{_i} - \overline x ){^2}} {\sum{(x{_j} - \overline x ){^2}}}
hi=n1+∑(xj−x)2(xi−x)2
正常情况下杠杆值应为(p+1)/n,如果杠杆值远大于(p+1)/n ,则说明该实例存在高杠杆效应。