一、线性回归定义
1、一般模型(假设)
Y
=
X
β
+
ε
Y=X\beta+\varepsilon
Y=Xβ+ε
· X是(n * p)的矩阵,p是特征数量,n是样本数,Y是输出结果
·
β
\beta
β是(p*1)的矩阵,并根据数据进行估计
·假定
E
[
ε
]
=
0
,
V
a
r
(
ε
)
=
σ
2
I
n
,
σ
E[\varepsilon]=0,Var(\varepsilon)=\sigma^{2}I_{n},\sigma
E[ε]=0,Var(ε)=σ2In,σ未知,
Y
\quad Y
Y是随机向量,且
E
[
Y
]
=
X
β
E[Y]=X\beta
E[Y]=Xβ
2、衡量 β \beta β的估计值 β ˉ \bar{\beta} βˉ的好坏程度
(1)
β
ˉ
\bar{\beta}
βˉ是否接近
β
\beta
β
→
β
ˉ
\bar{\beta}
βˉ与
β
\beta
β之间的均方误差(Mean Square Error)
E [ ∣ ∣ β ˉ − β ∣ ∣ 2 ] = E [ < β ˉ − β , β ˉ − β > ] E[||\bar{\beta}-\beta||^{2}]=E[<\bar{\beta}-\beta,\bar{\beta}-\beta>] E[∣∣βˉ−β∣∣2]=E[<βˉ−β,βˉ−β>]
= E [ < β ˉ − E β ˉ + E β ˉ − β , β ˉ − E β ˉ + E β ˉ − β > ] =E[<\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta,\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta>] =E[<βˉ−Eβˉ+Eβˉ−β,βˉ−Eβˉ+Eβˉ−β>]
= E [ ∣ ∣ β ˉ − E β ˉ ∣ ∣ 2 + 2 < β ˉ − E β ˉ , E β ˉ − β > + ∣ ∣ E β ˉ − β ∣ ∣ 2 ] =E[||\bar{\beta}-E\bar{\beta}||^{2}+2<\bar{\beta}-E\bar{\beta},E\bar{\beta}-\beta>+||E\bar{\beta}-\beta||^{2}] =E[∣∣βˉ−Eβˉ∣∣2+2<βˉ−Eβˉ,Eβˉ−β>+∣∣Eβˉ−β∣∣2]
=
E
[
∣
∣
β
ˉ
−
E
β
ˉ
∣
∣
2
]
+
∣
∣
E
β
ˉ
−
β
∣
∣
2
=E[||\bar{\beta}-E\bar{\beta}||^{2}]+||E\bar{\beta}-\beta||^{2}
=E[∣∣βˉ−Eβˉ∣∣2]+∣∣Eβˉ−β∣∣2
方
差
偏
差
\qquad\quad 方差\qquad\qquad\quad偏差
方差偏差
(2)
x
β
ˉ
x\bar{\beta}
xβˉ能否很好地估计新输入样本
x
(
1
∗
p
)
x_{(1*p)}
x(1∗p)对应的输出值y
→预测误差(Pridiction Error/Generalization Error)
E
[
(
y
−
x
β
ˉ
)
2
]
=
E
[
(
y
−
x
β
+
x
β
−
x
β
ˉ
)
2
]
E[(y-x\bar{\beta})^{2}]=E[(y-x\beta+x\beta-x\bar{\beta})^{2}]
E[(y−xβˉ)2]=E[(y−xβ+xβ−xβˉ)2]
=
E
[
(
y
−
x
β
)
2
+
2
(
y
−
x
β
)
(
x
β
−
x
β
ˉ
)
+
(
x
β
−
x
β
ˉ
)
2
]
=E[(y-x\beta)^{2}+2(y-x\beta)(x\beta-x\bar{\beta})+(x\beta-x\bar{\beta})^{2}]
=E[(y−xβ)2+2(y−xβ)(xβ−xβˉ)+(xβ−xβˉ)2]
=
E
[
(
y
−
x
β
)
2
]
+
E
[
(
x
β
−
x
β
ˉ
)
2
]
(
E
[
y
]
=
x
β
)
=E[(y-x\beta)^{2}]+E[(x\beta-x\bar{\beta})^{2}]\qquad(E[y]=x\beta)
=E[(y−xβ)2]+E[(xβ−xβˉ)2](E[y]=xβ)
=
σ
2
+
E
[
(
x
β
−
E
(
x
β
ˉ
)
+
E
(
x
β
ˉ
)
−
x
β
ˉ
)
2
]
=\sigma^{2}+E[(x\beta-E(x\bar{\beta})+E(x\bar{\beta})-x\bar{\beta})^{2}]
=σ2+E[(xβ−E(xβˉ)+E(xβˉ)−xβˉ)2]
=
σ
2
+
E
[
(
x
β
ˉ
−
E
(
x
β
ˉ
)
)
2
]
+
(
E
(
x
β
ˉ
)
−
x
β
)
2
=\sigma^{2}+E[(x\bar{\beta}-E(x\bar{\beta}))^{2}]+(E(x\bar{\beta})-x\beta)^{2}
=σ2+E[(xβˉ−E(xβˉ))2]+(E(xβˉ)−xβ)2
噪
声
方
差
偏
差
\quad噪声\qquad\quad 方差\qquad\qquad\quad偏差
噪声方差偏差
方
差
偏
差
分
解
\qquad\qquad方差偏差分解
方差偏差分解
3、方差-偏差窘境
4、偏差、方差与过拟合、欠拟合
5、方差-偏差分解说明了什么?
二、最小二乘算法与岭回归
1、OLS
①想法:最小化残差平方和
arg
min
θ
∣
∣
Y
−
X
β
∣
∣
2
\quad\mathop{\arg\min}_{\theta}||Y-X\beta||_{2}
argminθ∣∣Y−Xβ∣∣2
β
^
o
l
s
=
(
X
T
X
)
−
1
X
T
Y
\quad\hat{\beta}^{ols}=(X^{T}X)^{-1}X^{T}Y
β^ols=(XTX)−1XTY
假设
r
a
n
k
(
(
X
T
X
)
−
1
)
=
p
\quad rank((X^{T}X)^{-1})=p
rank((XTX)−1)=p
②几何含义:高维向量在低维向量空间中的投影
③相关性质:
无偏性:
E
β
^
o
l
s
=
E
β
E\hat{\beta}^{ols}=E\beta
Eβ^ols=Eβ
方差:
V
a
r
(
β
^
o
l
s
)
=
σ
2
(
X
T
X
)
−
1
Var(\hat{\beta}^{ols})=\sigma^{2}(X^{T}X)^{-1}
Var(β^ols)=σ2(XTX)−1
MSE:
M
S
E
=
E
[
∣
∣
β
^
o
l
s
−
E
β
^
o
l
s
∣
∣
2
]
=
∑
n
=
1
p
λ
i
−
1
MSE=E[||\hat{\beta}^{ols}-E\hat{\beta}^{ols}||^{2}]=\sum_{n=1}^{p}\lambda_{i}^{-1}
MSE=E[∣∣β^ols−Eβ^ols∣∣2]=∑n=1pλi−1
共线性?→
2、岭回归
①岭回归定义,两种定义等价,实质是对
β
\beta
β内积大小做出限制
②岭回归参数估计与OLS参数估计之间的关系→岭回归进行了特征缩减,但特征缩减不足
β
^
r
i
d
g
e
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
\quad\hat{\beta}^{ridge}=(X^{T}X+\lambda I)^{-1}X^{T}Y
β^ridge=(XTX+λI)−1XTY
β
^
r
i
d
g
e
=
[
I
+
λ
(
X
T
X
)
−
1
]
−
1
β
^
o
l
s
=
:
Z
β
^
o
l
s
\quad\hat{\beta}^{ridge}=[I+\lambda(X^{T}X)^{-1}]^{-1}\hat{\beta}^{ols}=:Z\hat{\beta}^{ols}
β^ridge=[I+λ(XTX)−1]−1β^ols=:Zβ^ols
③岭回归估计性质:
有偏:
E
(
β
^
r
i
d
g
e
)
=
Z
β
E(\hat{\beta}^{ridge})=Z\beta
E(β^ridge)=Zβ
方差:
V
a
r
(
β
^
r
i
d
g
e
)
=
σ
2
Z
(
X
T
X
)
−
1
Z
T
Var(\hat{\beta}^{ridge})=\sigma^{2}Z(X^{T}X)^{-1}Z^{T}
Var(β^ridge)=σ2Z(XTX)−1ZT
④方差-偏差分解(MSE)
E
[
∣
∣
β
^
r
i
d
g
e
−
β
∣
∣
2
]
=
E[||\hat{\beta}^{ridge}-\beta||^{2}]=
E[∣∣β^ridge−β∣∣2]=
E
[
(
β
^
o
l
s
−
β
)
T
Z
T
Z
(
β
^
o
l
s
−
β
)
]
+
(
Z
β
−
β
)
T
(
Z
β
−
β
)
=
:
E
[
L
(
λ
)
]
\quad E[(\hat{\beta}^{ols}-\beta)^{T}Z^{T}Z(\hat{\beta}^{ols}-\beta)]+(Z\beta-\beta)^{T}(Z\beta-\beta)=:E[L(\lambda)]
E[(β^ols−β)TZTZ(β^ols−β)]+(Zβ−β)T(Zβ−β)=:E[L(λ)]
其中:
定理一:
γ
1
是
关
于
λ
的
单
调
递
减
函
数
\gamma_{1}是关于\lambda的单调递减函数
γ1是关于λ的单调递减函数
定理二:
γ
2
是
关
于
λ
的
单
调
递
增
函
数
\gamma_{2}是关于\lambda的单调递增函数
γ2是关于λ的单调递增函数
定理三:
λ
>
0
,
E
[
L
(
λ
)
]
≤
E
[
L
(
0
)
]
=
σ
2
∑
i
=
1
p
1
λ
i
\lambda>0,E[L(\lambda)]≤E[L(0)]=\sigma^{2}\sum_{i=1}^{p}\frac{1}{\lambda_{i}}
λ>0,E[L(λ)]≤E[L(0)]=σ2∑i=1pλi1
三、Lasso和lars
1、变量选择
当变量数( p )多于样本数(n)时,更一般的,在高维的情况下,自由度不足以估计所有的回归系数。需进行变量选择。最直观的想法是把所有子变量集的组合都列出来,然后每一个集合都进行最小二乘回归。得到若干个模型,然后根据某种准则从中选出最好的。
这种普查型的择优选择,显然计算量会很大。因此我们需要寻找一条路径,在这条路径上进行优选,以保证最终得到的最优模型和普查所有模型下选出的最优模型差不多。
2、线性变量选择模型
→前向逐步回归
先选择和响应最相关的变量,进行最小二乘回归。然后在这个模型的基础上,再选择和此时残差相关度最高的(也就是相关度次高)的变量(而忽视了与残差无关但是与前面已选变量相关的变 量),加入模型重新最小二乘回归。之后再如法继续,直到在某些度量模型的最优性准则之下达到最优,从而选取一个最优的变量子集进行回归分析。优点:比原模型更简便、易解释、提高精确度,方差变小;缺点:牺牲准确性,有偏
→前向梯度回归
先选择和响应最相关的变量X1,找到后不急于做最小二乘回归, 而是在变量的solution path上一点一点的前进(所谓solution path 是指一个方向,逐步回归是在这个方向上进行),每前进一点,都要计算一下当前的残差和原有的所有变量的相关系数,找出绝对值最大的相关系数对应的变量X2。此时把X2也加入回归模型中,此时回归模型在X1上的系数已经确定了,改为在X2的solution path上前进,直到找到第三个变量X3,使得X3的与当前残差的相关系数绝对值最大。这样一步一步进行下去。每一步都是很多小步组成。直到某个模型判定准则生效,停止这个步骤。在每 一个solution path上的计算都是线性的。总体的solution path是分段线性的。
3、Lasso
岭回归是L2正则化,而Lasso是L1正则化。
4、lars
①响应最相关的变量X1→X2, s.t. X1、X2与残差相关度相同→以二者角平分线为新的逼近方向,继续前进
②以此重复,直至残差够小或变量取完
拓展:Lq正则化(q<1,稀疏性更好)、弹性网络正则化
5、小结
- 正则化参数的选取在实际数据分析中非常重要。
- 正则化更深层的含义是避免过拟合。
- 很多时候LASSO/Lars 作为特征工程中的特征提取的方
法进行运用。 - 四种算法很容易推广到非线性回归的情形。
四、非线性基岭回归
·非线性基模型
五、问题
1.简答题
①你对方差、偏差分解的理解
②证明岭回归算法两种定义的等价性
③岭回归中正则化系数如何选取
④查阅机器学习算法中的超参数定义与交叉验证方法的定义