补充:基展开与核方法

基展开与核方法

基展开

线性的回归:
y = X β + ε    ,    ε ∼ ( 0 , σ 2 ) y=\boldsymbol X\boldsymbol\beta+\varepsilon\ \ ,\ \ \varepsilon\sim(0,\sigma^2) y=Xβ+ε  ,  ε(0,σ2)
“光滑回归”:
y = f ( X ) + ε f ( X ) = E ( y ∣ X ) y=f(X)+\varepsilon\\f(X)=E(y|X) y=f(X)+εf(X)=E(yX)
h m ( X ) h_m(X) hm(X) X X X 的第m个变换, m = 1 , ⋯   , M m=1,\cdots,M m=1,,M,然后建立 X X X线性基展开(linear basis expansion) 模型:
f ( X ) = ∑ m = 1 M β m h m ( X ) f(X)=\sum_{m=1}^M\beta_mh_m(X) f(X)=m=1Mβmhm(X)
例如:
f ( X ) = β 0 + β 1 X + β 2 X 2 f ( x ) = β 0 + β 1 sin ⁡ ( X ) + β 2 cos ⁡ ( X ) f(X)=\beta_0+\beta_1X+\beta_2X^2\\f(x)=\beta_0+\beta_1\sin(X)+\beta_2\cos(X) f(X)=β0+β1X+β2X2f(x)=β0+β1sin(X)+β2cos(X)

分段多项式和样条

分段常数基函数:
h 1 ( X ) = I ( X < ξ 1 ) , h 2 ( X ) = I ( ξ 1 ≤ X < ξ 2 ) , h 3 ( X ) = I ( ξ 2 ≤ X ) h_1(X)=I(X<\xi_1),h_2(X)=I(\xi_1\leq X<\xi_2),h_3(X)=I(\xi_2\leq X) h1(X)=I(X<ξ1),h2(X)=I(ξ1X<ξ2),h3(X)=I(ξ2X)
按局部平均值进行拟合。

结合约束条件的分段线性基函数:
h 1 ( X ) = 1 , h 2 ( X ) = X , h 3 ( X ) = ( X − ξ 1 ) + , h 4 ( X ) = ( X − ξ 2 ) + h_1(X)=1,h_2(X)=X,h_3(X)=(X-\xi_1)_+,h_4(X)=(X-\xi_2)_+ h1(X)=1,h2(X)=X,h3(X)=(Xξ1)+,h4(X)=(Xξ2)+
分段三次样条多项式拟合基函数:
h 1 ( X ) , h 2 ( X ) = X , h 3 ( X ) = X 2 , h 4 ( X ) = X 3 , h 5 ( X ) = ( X − ξ 1 ) + 3 , h 6 ( X ) = ( X − ξ 2 ) + 3 h_1(X),h_2(X)=X,h_3(X)=X^2,h_4(X)=X^3,h_5(X)=(X-\xi_1)^3_+,h_6(X)=(X-\xi_2)^3_+ h1(X),h2(X)=X,h3(X)=X2,h4(X)=X3,h5(X)=(Xξ1)+3,h6(X)=(Xξ2)+3

光滑样条

要极小化罚残差的平方和:
R S S ( f , λ ) = ∑ i = 1 N { y i − f ( x i ) } 2 + λ ∫ { f ′ ′ ( t ) } 2 d t RSS(f,\lambda)=\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda\int\{f''(t)\}^2dt RSS(f,λ)=i=1N{yif(xi)}2+λ{f(t)}2dt
由于解是自然样条,可以写成:
f ( x ) = ∑ j = 1 N N j ( x ) θ j f(x)=\sum_{j=1}^NN_j(x)\theta_j f(x)=j=1NNj(x)θj
N j ( x ) N_j(x) Nj(x) 是表示该族自然样条的基函数的 N N N 维集合。
R S S ( θ , λ ) = ( y − N θ ) T ( y − N θ ) + λ θ T Ω N θ RSS(\theta,\lambda)=(\boldsymbol y-\boldsymbol N\boldsymbol\theta)^T(\boldsymbol y-\boldsymbol N\theta)+\lambda\boldsymbol\theta^T\boldsymbol\Omega_N\boldsymbol\theta RSS(θ,λ)=(yNθ)T(yNθ)+λθTΩNθ
其中 { N i j } = N j ( x i ) , { Ω N } j k = ∫ N j ′ ′ ( t ) N k ′ ′ ( t ) d t \{\boldsymbol N_{ij}\}=N_j(x_i),\{\boldsymbol \Omega_N\}_{jk}=\int N''_j(t)N''_k(t)dt {Nij}=Nj(xi),{ΩN}jk=Nj(t)Nk(t)dt,上述式子均为矩阵形式。容易得到最优解为(即使得RSS最小):
θ ^ = ( N T N + λ Ω N ) − 1 N T y f ^ ( x ) = ∑ j = 1 N N j ( x ) θ ^ j \hat{\boldsymbol\theta}=(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y\\\hat f(x)=\sum_{j=1}^NN_j(x)\hat\theta_j θ^=(NTN+λΩN)1NTyf^(x)=j=1NNj(x)θ^j

自由度和光滑矩阵

记训练预测子 x i x_i xi 上的拟合值 f ^ ( x i ) \hat f(x_i) f^(xi) N N N 向量为 f ^ \boldsymbol{\hat f} f^,则
f ^ = N ( N T N + λ Ω N ) − 1 N T y = S λ y \boldsymbol{\hat f}=\boldsymbol N(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y=\boldsymbol{S_{\lambda}}\boldsymbol y f^=N(NTN+λΩN)1NTy=Sλy
有限线性算子 S λ \boldsymbol{S_{\lambda}} Sλ 称为光滑子矩阵,其仅依赖于 x i x_i xi λ \lambda λ

定义光滑样条的有效自由度为(effective degrees of freedom ,EDF):
d f λ = t r a c e ( S λ ) df_\lambda=trace(\boldsymbol{S_\lambda}) dfλ=trace(Sλ)
即为 S λ \boldsymbol{S_\lambda} Sλ 的对角线元素之和。

S λ \boldsymbol{S_\lambda} Sλ 是对称的和半正定的。

多维样条函数

假定 X ∈ N 2 X\in\boldsymbol N^2 XN2 ,有表示坐标 X 1 X_1 X1 的函数基 h 1 k ( X 1 ) , k = 1 , ⋯   , M 1 h_{1k}(X_1),k=1,\cdots,M_1 h1k(X1),k=1,,M1,有表示坐标 X 2 X_2 X2 的函数基 h 2 k ( X 2 ) , k = 1 , ⋯   , M 2 h_{2k}(X_2),k=1,\cdots,M_2 h2k(X2),k=1,,M2,则由
g j k ( X ) = h 1 j ( X 1 ) h 2 k ( X 2 ) , j = 1 , ⋯   , M 1 g_{jk}(X)=h_{1j}(X_1)h_{2k}(X_2),j=1,\cdots,M_1 gjk(X)=h1j(X1)h2k(X2),j=1,,M1
定义的 M 1 × M 2 M_1\times M_2 M1×M2 维张量积基可以用来表示二维函数:
g ( X ) = ∑ j = 1 M 1 ∑ k = 1 M 2 θ j k g j k ( X ) g(X)=\sum_{j=1}^{M_1}\sum_{k=1}^{M_2}\theta_{jk}g_{jk}(X) g(X)=j=1M1k=1M2θjkgjk(X)
此时建立问题:
min ⁡ f ∑ i = 1 N { y i − f ( x i ) } 2 + λ J [ f ] \min_f\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda J[f] fmini=1N{yif(xi)}2+λJ[f]
J J J 是稳定 R d \boldsymbol R^d Rd 上函数 f f f 的罚泛函。例如,对于 R 2 \boldsymbol R^2 R2 上的函数:
J [ f ] = ∫ ∫ R 2 [ ( ∂ 2 f ( x ) ∂ x 1 2 ) 2 + 2 ( ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ) + ( ∂ 2 f ( x ) ∂ x 2 2 ) 2 ] d x 1 d x 2 J[f]=\int\int_{\boldsymbol R^2}[(\frac{\partial^2f(x)}{\partial x_1^2})^2+2(\frac{\partial^2f(x)}{\partial x_1\partial x_2})+(\frac{\partial^2f(x)}{\partial x_2^2})^2]dx_1dx_2 J[f]=R2[(x122f(x))2+2(x1x22f(x))+(x222f(x))2]dx1dx2
解形如:
f ( x ) = β 0 + β T x + ∑ j = 1 N α j h j ( x ) h j ( x ) = η ( ∣ ∣ x − x j ∣ ∣ ) η ( z ) = z 2 log ⁡ z 2 f(x)=\beta_0+\boldsymbol\beta^T\boldsymbol x+\sum_{j=1}^N\alpha_jh_j(x)\\h_j(x)=\eta(||x-x_j||)\\\eta(z)=z^2\log z^2 f(x)=β0+βTx+j=1Nαjhj(x)hj(x)=η(xxj)η(z)=z2logz2
h j h_j hj径向基函数(radial basis functions)

核方法

模型与数据:
E ( Y ∣ x ) = f ( x ) y i = f ( x i ) + ε i f ( x 0 ) = E ( Y ∣ x 0 ) E(Y|x)=f(x)\\y_i=f(x_i)+\varepsilon_i\\f(x_0)=E(Y|x_0) E(Yx)=f(x)yi=f(xi)+εif(x0)=E(Yx0)
将k-最近邻平均:
f ^ ( x ) = A v e ( y i ∣ x i ∈ N k ( x ) ) \hat f(x)=Ave(y_i|x_i\in N_k(x)) f^(x)=Ave(yixiNk(x))
作为回归函数 E ( Y ∣ X = x ) E(Y|X=x) E(YX=x) 的估计,这里 N k ( x ) N_k(x) Nk(x) 是平方距离最邻近 x x x 的k个点的集合,Ave表示取平均值。

使用Nadaraya-Watson的核加权平均:
f ^ ( x 0 ) = ∑ i = 1 N K λ ( x 0 , x i ) y i ∑ i = 1 N K λ ( x 0 , x i ) K λ ( x 0 , x ) = D ( ∣ x − x 0 ∣ λ )    更 一 般 的 , K λ ( x 0 , x ) = D ( ∣ x − x 0 ∣ h λ ( x 0 ) ) \hat f(x_0)=\frac{\sum_{i=1}^NK_\lambda(x_0,x_i)y_i}{\sum_{i=1}^NK_\lambda(x_0,x_i)}\\K_\lambda(x_0,x)=D(\frac{|x-x_0|}{\lambda})\ \ 更一般的,K_\lambda(x_0,x)=D(\frac{|x-x_0|}{h_\lambda(x_0)}) f^(x0)=i=1NKλ(x0,xi)i=1NKλ(x0,xi)yiKλ(x0,x)=D(λxx0)  Kλ(x0,x)=D(hλ(x0)xx0)
选择核:
E p a n i c h a k o v : D ( t ) = { 3 4 ( 1 − t 2 ) , ∣ t ∣ ≤ 1 0 , 其 他 t r i − c u b e : D ( t ) = { ( 1 − ∣ t ∣ 3 ) 3 , ∣ t ∣ ≤ 1 0 , 其 他 G a u s s i a n : D ( t ) = ϕ ( t ) = 1 2 π exp ⁡ ( − t 2 / 2 ) Epanichakov:D(t)=\begin{cases}\frac{3}{4}(1-t^2),|t|\leq1\\0,其他\end{cases}\\tri − cube:D(t)=\begin{cases}(1-|t|^3)^3,|t|\leq1\\0,其他\end{cases}\\Gaussian:D(t)=\phi(t)=\frac{1}{\sqrt{2\pi}}\exp(-t^2/2) Epanichakov:D(t)={43(1t2),t10,tricube:D(t)={(1t3)3,t10,Gaussian:D(t)=ϕ(t)=2π 1exp(t2/2)

局部线性回归

在每个目标点 x 0 x_0 x0 解一个单独的加权最小二乘方问题:
min ⁡ α ( x 0 ) , β ( x 0 ) ∑ i = 1 N K λ ( x 0 , x i ) [ y i − α ( x 0 ) − β ( x 0 ) x i ] 2 \min_{\alpha(x_0),\beta(x_0)}\sum_{i=1}^NK_\lambda(x_0,x_i)[y_i-\alpha(x_0)-\beta(x_0)x_i]^2 α(x0),β(x0)mini=1NKλ(x0,xi)[yiα(x0)β(x0)xi]2
估计则是:
f ^ ( x 0 ) = α ^ ( x 0 ) + β ^ ( x 0 ) x 0 \hat f(x_0)=\hat\alpha(x_0)+\hat\beta(x_0)x_0 f^(x0)=α^(x0)+β^(x0)x0
定义向量值函数 b ( x ) T = ( 1 , x ) b(x)^T=(1,x) b(x)T=(1,x)。设 B \boldsymbol B B N × 2 N\times2 N×2 回归矩阵,第 i i i 行为 b ( x i ) T b(x_i)^T b(xi)T W ( x 0 ) \boldsymbol W(x_0) W(x0) N × N N\times N N×N 对角矩阵,第 i i i 个对角线元素为 K λ ( x 0 , x i ) \boldsymbol K_\lambda(x_0,x_i) Kλ(x0,xi),即:
X = [ 1 x 1 1 x 2 ⋮ ⋮ 1 x N ] = B W ( x 0 ) i i = K λ ( x 0 , x i ) , W ( x 0 ) i j = 0 , i ≠ j \boldsymbol X=\left[\begin{matrix}1&x_1\\1&x_2\\\vdots&\vdots\\1&x_N\end{matrix}\right]=\boldsymbol B\\\boldsymbol W(x_0)_{ii}= \boldsymbol K_\lambda(x_0,x_i),W(x_0)_{ij}=0,i\neq j X=111x1x2xN=BW(x0)ii=Kλ(x0,xi),W(x0)ij=0,i=j
则有:
f ^ ( x 0 ) = b ( x 0 ) T ( B T W ( x 0 ) B ) − 1 B T W ( x 0 ) y = ∑ i = 1 N l i ( x 0 ) y i E f ^ ( x 0 ) = ∑ i = 1 N l i ( x 0 ) f ( x i ) = f ( x 0 ) ∑ i = 1 N l i ( x 0 ) + f ′ ( x 0 ) ∑ i = 1 N ( x i − x 0 ) l i ( x 0 ) + f ′ ′ ( x 0 ) 2 ∑ i = 1 N ( x i − x 0 ) 2 l i ( x 0 ) + R \hat f(x_0)=b(x_0)^T(\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol B)^{-1}\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol y=\sum_{i=1}^Nl_i(x_0)y_i\\E\hat f(x_0)=\sum_{i=1}^Nl_i(x_0)f(x_i)=f(x_0)\sum_{i=1}^Nl_i(x_0)+f'(x_0)\sum_{i=1}^N(x_i-x_0)l_i(x_0)+\frac{f''(x_0)}{2}\sum_{i=1}^N(x_i-x_0)^2l_i(x_0)+R f^(x0)=b(x0)T(BTW(x0)B)1BTW(x0)y=i=1Nli(x0)yiEf^(x0)=i=1Nli(x0)f(xi)=f(x0)i=1Nli(x0)+f(x0)i=1N(xix0)li(x0)+2f(x0)i=1N(xix0)2li(x0)+R
余项 R R R 涉及 f f f 的三阶或更高阶导数。且有:
∑ i = 1 N l i ( x 0 ) = 1 , ∑ i = 1 N ( x i − x 0 ) l i ( x 0 ) = 0 \sum_{i=1}^Nl_i(x_0)=1,\sum_{i=1}^N(x_i-x_0)l_i(x_0)=0 i=1Nli(x0)=1,i=1N(xix0)li(x0)=0
上上式仅依赖于 f f f 的展开式中的二次或更高次项。

核方法分类

假定有从概率密度 f X ( x ) f_X(x) fX(x) 提取的随机样本 x 1 , ⋯   , x N x_1,\cdots,x_N x1,,xN,估计 x 0 x_0 x0 上的 f X f_X fX X ∈ R X\in\boldsymbol R XR,一种自然的局部估计具有如下形式:
f ^ X ( x 0 ) = # { x i ∈ N λ ( x 0 ) } N λ \hat f_X(x_0)=\frac{\#\{x_i\in N_\lambda(x_0)\}}{N\lambda} f^X(x0)=Nλ#{xiNλ(x0)}
N λ ( x 0 ) N_\lambda(x_0) Nλ(x0) x 0 x_0 x0 周围宽度为 λ \lambda λ 的较小度量邻域。

光滑的Parzen估计:
f ^ X ( x 0 ) = 1 N λ ∑ i = 1 N K λ ( x 0 , x i ) \hat f_X(x_0)=\frac{1}{N\lambda}\sum_{i=1}^NK_\lambda(x_0,x_i) f^X(x0)=Nλ1i=1NKλ(x0,xi)
ϕ λ \phi_\lambda ϕλ 表示具有均值0和标准差 λ \lambda λ 的高斯密度,则上式有如下形式:
f ^ X ( x 0 ) = 1 N ∑ i = 1 N ϕ λ ( x 0 − x i ) = ( F ^ ⋆ ϕ λ ) ( x 0 ) F ^ ( x ) = 1 N ∑ i = 1 N I { x i ≤ x } \hat f_X(x_0)=\frac{1}{N}\sum_{i=1}^N\phi_\lambda(x_0-x_i)=(\hat F\star\phi_\lambda)(x_0)\\\hat F(x)=\frac{1}{N}\sum_{i=1}^NI\{x_i\leq x\} f^X(x0)=N1i=1Nϕλ(x0xi)=(F^ϕλ)(x0)F^(x)=N1i=1NI{xix}
这是样本经验分布 F ^ \hat F F^ ϕ λ \phi_\lambda ϕλ 的卷积。

假定对于 J J J 类问题,分别在每个类上拟合非参数密度估计 f ^ j ( X ) , j = 1 , ⋯   , J \hat f_j(X),j=1,\cdots,J f^j(X),j=1,,J,并且还有每个类的先验 π ^ j \hat\pi_j π^j 的估计,则
P r ( Y = j ∣ X = x 0 ) = π ^ j f ^ j ( x 0 ) ∑ k = 1 J π ^ k f ^ k ( x 0 ) f ^ j ( x ) = ∏ k = 1 p f ^ j k ( x k ) Pr(Y=j|X=x_0)=\frac{\hat\pi_j\hat f_j(x_0)}{\sum_{k=1}^J\hat\pi_k\hat f_k(x_0)}\\\hat f_j(x)=\prod_{k=1}^p\hat f_{jk}(x_k) Pr(Y=jX=x0)=k=1Jπ^kf^k(x0)π^jf^j(x0)f^j(x)=k=1pf^jk(xk)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值