基展开与核方法
基展开
线性的回归:
y
=
X
β
+
ε
,
ε
∼
(
0
,
σ
2
)
y=\boldsymbol X\boldsymbol\beta+\varepsilon\ \ ,\ \ \varepsilon\sim(0,\sigma^2)
y=Xβ+ε , ε∼(0,σ2)
“光滑回归”:
y
=
f
(
X
)
+
ε
f
(
X
)
=
E
(
y
∣
X
)
y=f(X)+\varepsilon\\f(X)=E(y|X)
y=f(X)+εf(X)=E(y∣X)
记
h
m
(
X
)
h_m(X)
hm(X) 为
X
X
X 的第m个变换,
m
=
1
,
⋯
,
M
m=1,\cdots,M
m=1,⋯,M,然后建立
X
X
X 的线性基展开(linear basis expansion) 模型:
f
(
X
)
=
∑
m
=
1
M
β
m
h
m
(
X
)
f(X)=\sum_{m=1}^M\beta_mh_m(X)
f(X)=m=1∑Mβmhm(X)
例如:
f
(
X
)
=
β
0
+
β
1
X
+
β
2
X
2
f
(
x
)
=
β
0
+
β
1
sin
(
X
)
+
β
2
cos
(
X
)
f(X)=\beta_0+\beta_1X+\beta_2X^2\\f(x)=\beta_0+\beta_1\sin(X)+\beta_2\cos(X)
f(X)=β0+β1X+β2X2f(x)=β0+β1sin(X)+β2cos(X)
分段多项式和样条
分段常数基函数:
h
1
(
X
)
=
I
(
X
<
ξ
1
)
,
h
2
(
X
)
=
I
(
ξ
1
≤
X
<
ξ
2
)
,
h
3
(
X
)
=
I
(
ξ
2
≤
X
)
h_1(X)=I(X<\xi_1),h_2(X)=I(\xi_1\leq X<\xi_2),h_3(X)=I(\xi_2\leq X)
h1(X)=I(X<ξ1),h2(X)=I(ξ1≤X<ξ2),h3(X)=I(ξ2≤X)
按局部平均值进行拟合。
结合约束条件的分段线性基函数:
h
1
(
X
)
=
1
,
h
2
(
X
)
=
X
,
h
3
(
X
)
=
(
X
−
ξ
1
)
+
,
h
4
(
X
)
=
(
X
−
ξ
2
)
+
h_1(X)=1,h_2(X)=X,h_3(X)=(X-\xi_1)_+,h_4(X)=(X-\xi_2)_+
h1(X)=1,h2(X)=X,h3(X)=(X−ξ1)+,h4(X)=(X−ξ2)+
分段三次样条多项式拟合基函数:
h
1
(
X
)
,
h
2
(
X
)
=
X
,
h
3
(
X
)
=
X
2
,
h
4
(
X
)
=
X
3
,
h
5
(
X
)
=
(
X
−
ξ
1
)
+
3
,
h
6
(
X
)
=
(
X
−
ξ
2
)
+
3
h_1(X),h_2(X)=X,h_3(X)=X^2,h_4(X)=X^3,h_5(X)=(X-\xi_1)^3_+,h_6(X)=(X-\xi_2)^3_+
h1(X),h2(X)=X,h3(X)=X2,h4(X)=X3,h5(X)=(X−ξ1)+3,h6(X)=(X−ξ2)+3
光滑样条
要极小化罚残差的平方和:
R
S
S
(
f
,
λ
)
=
∑
i
=
1
N
{
y
i
−
f
(
x
i
)
}
2
+
λ
∫
{
f
′
′
(
t
)
}
2
d
t
RSS(f,\lambda)=\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda\int\{f''(t)\}^2dt
RSS(f,λ)=i=1∑N{yi−f(xi)}2+λ∫{f′′(t)}2dt
由于解是自然样条,可以写成:
f
(
x
)
=
∑
j
=
1
N
N
j
(
x
)
θ
j
f(x)=\sum_{j=1}^NN_j(x)\theta_j
f(x)=j=1∑NNj(x)θj
N
j
(
x
)
N_j(x)
Nj(x) 是表示该族自然样条的基函数的
N
N
N 维集合。
R
S
S
(
θ
,
λ
)
=
(
y
−
N
θ
)
T
(
y
−
N
θ
)
+
λ
θ
T
Ω
N
θ
RSS(\theta,\lambda)=(\boldsymbol y-\boldsymbol N\boldsymbol\theta)^T(\boldsymbol y-\boldsymbol N\theta)+\lambda\boldsymbol\theta^T\boldsymbol\Omega_N\boldsymbol\theta
RSS(θ,λ)=(y−Nθ)T(y−Nθ)+λθTΩNθ
其中
{
N
i
j
}
=
N
j
(
x
i
)
,
{
Ω
N
}
j
k
=
∫
N
j
′
′
(
t
)
N
k
′
′
(
t
)
d
t
\{\boldsymbol N_{ij}\}=N_j(x_i),\{\boldsymbol \Omega_N\}_{jk}=\int N''_j(t)N''_k(t)dt
{Nij}=Nj(xi),{ΩN}jk=∫Nj′′(t)Nk′′(t)dt,上述式子均为矩阵形式。容易得到最优解为(即使得RSS最小):
θ
^
=
(
N
T
N
+
λ
Ω
N
)
−
1
N
T
y
f
^
(
x
)
=
∑
j
=
1
N
N
j
(
x
)
θ
^
j
\hat{\boldsymbol\theta}=(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y\\\hat f(x)=\sum_{j=1}^NN_j(x)\hat\theta_j
θ^=(NTN+λΩN)−1NTyf^(x)=j=1∑NNj(x)θ^j
自由度和光滑矩阵
记训练预测子
x
i
x_i
xi 上的拟合值
f
^
(
x
i
)
\hat f(x_i)
f^(xi) 的
N
N
N 向量为
f
^
\boldsymbol{\hat f}
f^,则
f
^
=
N
(
N
T
N
+
λ
Ω
N
)
−
1
N
T
y
=
S
λ
y
\boldsymbol{\hat f}=\boldsymbol N(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y=\boldsymbol{S_{\lambda}}\boldsymbol y
f^=N(NTN+λΩN)−1NTy=Sλy
有限线性算子
S
λ
\boldsymbol{S_{\lambda}}
Sλ 称为光滑子矩阵,其仅依赖于
x
i
x_i
xi 和
λ
\lambda
λ。
定义光滑样条的有效自由度为(effective degrees of freedom ,EDF):
d
f
λ
=
t
r
a
c
e
(
S
λ
)
df_\lambda=trace(\boldsymbol{S_\lambda})
dfλ=trace(Sλ)
即为
S
λ
\boldsymbol{S_\lambda}
Sλ 的对角线元素之和。
S λ \boldsymbol{S_\lambda} Sλ 是对称的和半正定的。
多维样条函数
假定
X
∈
N
2
X\in\boldsymbol N^2
X∈N2 ,有表示坐标
X
1
X_1
X1 的函数基
h
1
k
(
X
1
)
,
k
=
1
,
⋯
,
M
1
h_{1k}(X_1),k=1,\cdots,M_1
h1k(X1),k=1,⋯,M1,有表示坐标
X
2
X_2
X2 的函数基
h
2
k
(
X
2
)
,
k
=
1
,
⋯
,
M
2
h_{2k}(X_2),k=1,\cdots,M_2
h2k(X2),k=1,⋯,M2,则由
g
j
k
(
X
)
=
h
1
j
(
X
1
)
h
2
k
(
X
2
)
,
j
=
1
,
⋯
,
M
1
g_{jk}(X)=h_{1j}(X_1)h_{2k}(X_2),j=1,\cdots,M_1
gjk(X)=h1j(X1)h2k(X2),j=1,⋯,M1
定义的
M
1
×
M
2
M_1\times M_2
M1×M2 维张量积基可以用来表示二维函数:
g
(
X
)
=
∑
j
=
1
M
1
∑
k
=
1
M
2
θ
j
k
g
j
k
(
X
)
g(X)=\sum_{j=1}^{M_1}\sum_{k=1}^{M_2}\theta_{jk}g_{jk}(X)
g(X)=j=1∑M1k=1∑M2θjkgjk(X)
此时建立问题:
min
f
∑
i
=
1
N
{
y
i
−
f
(
x
i
)
}
2
+
λ
J
[
f
]
\min_f\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda J[f]
fmini=1∑N{yi−f(xi)}2+λJ[f]
J
J
J 是稳定
R
d
\boldsymbol R^d
Rd 上函数
f
f
f 的罚泛函。例如,对于
R
2
\boldsymbol R^2
R2 上的函数:
J
[
f
]
=
∫
∫
R
2
[
(
∂
2
f
(
x
)
∂
x
1
2
)
2
+
2
(
∂
2
f
(
x
)
∂
x
1
∂
x
2
)
+
(
∂
2
f
(
x
)
∂
x
2
2
)
2
]
d
x
1
d
x
2
J[f]=\int\int_{\boldsymbol R^2}[(\frac{\partial^2f(x)}{\partial x_1^2})^2+2(\frac{\partial^2f(x)}{\partial x_1\partial x_2})+(\frac{\partial^2f(x)}{\partial x_2^2})^2]dx_1dx_2
J[f]=∫∫R2[(∂x12∂2f(x))2+2(∂x1∂x2∂2f(x))+(∂x22∂2f(x))2]dx1dx2
解形如:
f
(
x
)
=
β
0
+
β
T
x
+
∑
j
=
1
N
α
j
h
j
(
x
)
h
j
(
x
)
=
η
(
∣
∣
x
−
x
j
∣
∣
)
η
(
z
)
=
z
2
log
z
2
f(x)=\beta_0+\boldsymbol\beta^T\boldsymbol x+\sum_{j=1}^N\alpha_jh_j(x)\\h_j(x)=\eta(||x-x_j||)\\\eta(z)=z^2\log z^2
f(x)=β0+βTx+j=1∑Nαjhj(x)hj(x)=η(∣∣x−xj∣∣)η(z)=z2logz2
h
j
h_j
hj 是径向基函数(radial basis functions)。
核方法
模型与数据:
E
(
Y
∣
x
)
=
f
(
x
)
y
i
=
f
(
x
i
)
+
ε
i
f
(
x
0
)
=
E
(
Y
∣
x
0
)
E(Y|x)=f(x)\\y_i=f(x_i)+\varepsilon_i\\f(x_0)=E(Y|x_0)
E(Y∣x)=f(x)yi=f(xi)+εif(x0)=E(Y∣x0)
将k-最近邻平均:
f
^
(
x
)
=
A
v
e
(
y
i
∣
x
i
∈
N
k
(
x
)
)
\hat f(x)=Ave(y_i|x_i\in N_k(x))
f^(x)=Ave(yi∣xi∈Nk(x))
作为回归函数
E
(
Y
∣
X
=
x
)
E(Y|X=x)
E(Y∣X=x) 的估计,这里
N
k
(
x
)
N_k(x)
Nk(x) 是平方距离最邻近
x
x
x 的k个点的集合,Ave表示取平均值。
使用Nadaraya-Watson的核加权平均:
f
^
(
x
0
)
=
∑
i
=
1
N
K
λ
(
x
0
,
x
i
)
y
i
∑
i
=
1
N
K
λ
(
x
0
,
x
i
)
K
λ
(
x
0
,
x
)
=
D
(
∣
x
−
x
0
∣
λ
)
更
一
般
的
,
K
λ
(
x
0
,
x
)
=
D
(
∣
x
−
x
0
∣
h
λ
(
x
0
)
)
\hat f(x_0)=\frac{\sum_{i=1}^NK_\lambda(x_0,x_i)y_i}{\sum_{i=1}^NK_\lambda(x_0,x_i)}\\K_\lambda(x_0,x)=D(\frac{|x-x_0|}{\lambda})\ \ 更一般的,K_\lambda(x_0,x)=D(\frac{|x-x_0|}{h_\lambda(x_0)})
f^(x0)=∑i=1NKλ(x0,xi)∑i=1NKλ(x0,xi)yiKλ(x0,x)=D(λ∣x−x0∣) 更一般的,Kλ(x0,x)=D(hλ(x0)∣x−x0∣)
选择核:
E
p
a
n
i
c
h
a
k
o
v
:
D
(
t
)
=
{
3
4
(
1
−
t
2
)
,
∣
t
∣
≤
1
0
,
其
他
t
r
i
−
c
u
b
e
:
D
(
t
)
=
{
(
1
−
∣
t
∣
3
)
3
,
∣
t
∣
≤
1
0
,
其
他
G
a
u
s
s
i
a
n
:
D
(
t
)
=
ϕ
(
t
)
=
1
2
π
exp
(
−
t
2
/
2
)
Epanichakov:D(t)=\begin{cases}\frac{3}{4}(1-t^2),|t|\leq1\\0,其他\end{cases}\\tri − cube:D(t)=\begin{cases}(1-|t|^3)^3,|t|\leq1\\0,其他\end{cases}\\Gaussian:D(t)=\phi(t)=\frac{1}{\sqrt{2\pi}}\exp(-t^2/2)
Epanichakov:D(t)={43(1−t2),∣t∣≤10,其他tri−cube:D(t)={(1−∣t∣3)3,∣t∣≤10,其他Gaussian:D(t)=ϕ(t)=2π1exp(−t2/2)
局部线性回归
在每个目标点
x
0
x_0
x0 解一个单独的加权最小二乘方问题:
min
α
(
x
0
)
,
β
(
x
0
)
∑
i
=
1
N
K
λ
(
x
0
,
x
i
)
[
y
i
−
α
(
x
0
)
−
β
(
x
0
)
x
i
]
2
\min_{\alpha(x_0),\beta(x_0)}\sum_{i=1}^NK_\lambda(x_0,x_i)[y_i-\alpha(x_0)-\beta(x_0)x_i]^2
α(x0),β(x0)mini=1∑NKλ(x0,xi)[yi−α(x0)−β(x0)xi]2
估计则是:
f
^
(
x
0
)
=
α
^
(
x
0
)
+
β
^
(
x
0
)
x
0
\hat f(x_0)=\hat\alpha(x_0)+\hat\beta(x_0)x_0
f^(x0)=α^(x0)+β^(x0)x0
定义向量值函数
b
(
x
)
T
=
(
1
,
x
)
b(x)^T=(1,x)
b(x)T=(1,x)。设
B
\boldsymbol B
B 是
N
×
2
N\times2
N×2 回归矩阵,第
i
i
i 行为
b
(
x
i
)
T
b(x_i)^T
b(xi)T,
W
(
x
0
)
\boldsymbol W(x_0)
W(x0) 是
N
×
N
N\times N
N×N 对角矩阵,第
i
i
i 个对角线元素为
K
λ
(
x
0
,
x
i
)
\boldsymbol K_\lambda(x_0,x_i)
Kλ(x0,xi),即:
X
=
[
1
x
1
1
x
2
⋮
⋮
1
x
N
]
=
B
W
(
x
0
)
i
i
=
K
λ
(
x
0
,
x
i
)
,
W
(
x
0
)
i
j
=
0
,
i
≠
j
\boldsymbol X=\left[\begin{matrix}1&x_1\\1&x_2\\\vdots&\vdots\\1&x_N\end{matrix}\right]=\boldsymbol B\\\boldsymbol W(x_0)_{ii}= \boldsymbol K_\lambda(x_0,x_i),W(x_0)_{ij}=0,i\neq j
X=⎣⎢⎢⎢⎡11⋮1x1x2⋮xN⎦⎥⎥⎥⎤=BW(x0)ii=Kλ(x0,xi),W(x0)ij=0,i=j
则有:
f
^
(
x
0
)
=
b
(
x
0
)
T
(
B
T
W
(
x
0
)
B
)
−
1
B
T
W
(
x
0
)
y
=
∑
i
=
1
N
l
i
(
x
0
)
y
i
E
f
^
(
x
0
)
=
∑
i
=
1
N
l
i
(
x
0
)
f
(
x
i
)
=
f
(
x
0
)
∑
i
=
1
N
l
i
(
x
0
)
+
f
′
(
x
0
)
∑
i
=
1
N
(
x
i
−
x
0
)
l
i
(
x
0
)
+
f
′
′
(
x
0
)
2
∑
i
=
1
N
(
x
i
−
x
0
)
2
l
i
(
x
0
)
+
R
\hat f(x_0)=b(x_0)^T(\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol B)^{-1}\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol y=\sum_{i=1}^Nl_i(x_0)y_i\\E\hat f(x_0)=\sum_{i=1}^Nl_i(x_0)f(x_i)=f(x_0)\sum_{i=1}^Nl_i(x_0)+f'(x_0)\sum_{i=1}^N(x_i-x_0)l_i(x_0)+\frac{f''(x_0)}{2}\sum_{i=1}^N(x_i-x_0)^2l_i(x_0)+R
f^(x0)=b(x0)T(BTW(x0)B)−1BTW(x0)y=i=1∑Nli(x0)yiEf^(x0)=i=1∑Nli(x0)f(xi)=f(x0)i=1∑Nli(x0)+f′(x0)i=1∑N(xi−x0)li(x0)+2f′′(x0)i=1∑N(xi−x0)2li(x0)+R
余项
R
R
R 涉及
f
f
f 的三阶或更高阶导数。且有:
∑
i
=
1
N
l
i
(
x
0
)
=
1
,
∑
i
=
1
N
(
x
i
−
x
0
)
l
i
(
x
0
)
=
0
\sum_{i=1}^Nl_i(x_0)=1,\sum_{i=1}^N(x_i-x_0)l_i(x_0)=0
i=1∑Nli(x0)=1,i=1∑N(xi−x0)li(x0)=0
上上式仅依赖于
f
f
f 的展开式中的二次或更高次项。
核方法分类
假定有从概率密度
f
X
(
x
)
f_X(x)
fX(x) 提取的随机样本
x
1
,
⋯
,
x
N
x_1,\cdots,x_N
x1,⋯,xN,估计
x
0
x_0
x0 上的
f
X
f_X
fX,
X
∈
R
X\in\boldsymbol R
X∈R,一种自然的局部估计具有如下形式:
f
^
X
(
x
0
)
=
#
{
x
i
∈
N
λ
(
x
0
)
}
N
λ
\hat f_X(x_0)=\frac{\#\{x_i\in N_\lambda(x_0)\}}{N\lambda}
f^X(x0)=Nλ#{xi∈Nλ(x0)}
N
λ
(
x
0
)
N_\lambda(x_0)
Nλ(x0) 是
x
0
x_0
x0 周围宽度为
λ
\lambda
λ 的较小度量邻域。
光滑的Parzen估计:
f
^
X
(
x
0
)
=
1
N
λ
∑
i
=
1
N
K
λ
(
x
0
,
x
i
)
\hat f_X(x_0)=\frac{1}{N\lambda}\sum_{i=1}^NK_\lambda(x_0,x_i)
f^X(x0)=Nλ1i=1∑NKλ(x0,xi)
设
ϕ
λ
\phi_\lambda
ϕλ 表示具有均值0和标准差
λ
\lambda
λ 的高斯密度,则上式有如下形式:
f
^
X
(
x
0
)
=
1
N
∑
i
=
1
N
ϕ
λ
(
x
0
−
x
i
)
=
(
F
^
⋆
ϕ
λ
)
(
x
0
)
F
^
(
x
)
=
1
N
∑
i
=
1
N
I
{
x
i
≤
x
}
\hat f_X(x_0)=\frac{1}{N}\sum_{i=1}^N\phi_\lambda(x_0-x_i)=(\hat F\star\phi_\lambda)(x_0)\\\hat F(x)=\frac{1}{N}\sum_{i=1}^NI\{x_i\leq x\}
f^X(x0)=N1i=1∑Nϕλ(x0−xi)=(F^⋆ϕλ)(x0)F^(x)=N1i=1∑NI{xi≤x}
这是样本经验分布
F
^
\hat F
F^ 与
ϕ
λ
\phi_\lambda
ϕλ 的卷积。
假定对于
J
J
J 类问题,分别在每个类上拟合非参数密度估计
f
^
j
(
X
)
,
j
=
1
,
⋯
,
J
\hat f_j(X),j=1,\cdots,J
f^j(X),j=1,⋯,J,并且还有每个类的先验
π
^
j
\hat\pi_j
π^j 的估计,则
P
r
(
Y
=
j
∣
X
=
x
0
)
=
π
^
j
f
^
j
(
x
0
)
∑
k
=
1
J
π
^
k
f
^
k
(
x
0
)
f
^
j
(
x
)
=
∏
k
=
1
p
f
^
j
k
(
x
k
)
Pr(Y=j|X=x_0)=\frac{\hat\pi_j\hat f_j(x_0)}{\sum_{k=1}^J\hat\pi_k\hat f_k(x_0)}\\\hat f_j(x)=\prod_{k=1}^p\hat f_{jk}(x_k)
Pr(Y=j∣X=x0)=∑k=1Jπ^kf^k(x0)π^jf^j(x0)f^j(x)=k=1∏pf^jk(xk)