非参数回归模型
对回归函数f()的具体形式不做任何假定或是只做一些简单的光滑性要求,依靠观测数据寻求f()的特征
非参数光滑方法
权函数估计
基于局部加权的思想,利用周围的点拟合某点处回归函数的值。
假设要估计
x
0
x_0
x0对应的
m
(
x
0
)
m(x_0)
m(x0),
{
y
i
,
x
i
}
\left\{y_i,x_i\right\}
{yi,xi}对应的权函数为
W
n
i
(
x
0
)
W_{ni}(x_0)
Wni(x0),则加权估计为:
m
^
(
x
0
)
=
∑
i
=
1
n
W
n
i
(
x
0
)
Y
i
\hat{m}(x_0)=\sum_{i=1}^nW_{ni}(x_0)Y_i
m^(x0)=i=1∑nWni(x0)Yi
常用的包括核估计方法、局部多项式估计方法
最小二乘法
利用参数空间逼近无穷维参数空间,基于不同的逼近思想构造参数空间的基函数,将未知函数(无穷维参数)的估计问题转为(有限个)未知参数的估计问题,从而利用最小二乘法得到估计。
样条方法
- 多项式回归的一种推广。利用分段不同阶数的多项式拟合数据,使得两个多项式函数在knots处可以允许不连续的导数,这样使得估计的回归函数更具有灵活性。
- 设 t 1 , t 2 , . . . , t J t_1, t_2,..., t_J t1,t2,...,tJ为固定节点,这些节点将实直线划分为多个区间。以三次样条为例,有连续二阶导,并且在每个区间内都是三次多项式。所有的三次样条函数形成一个J+4维的线性空间。
- 常见三次样条基:
- 幂基: 1 , x , x 2 , x 3 , ( x − t j ) + 3 ( j = 1 , 2 , . . . , J ) 1, x, x^2, x^3, (x-t_j)^3_+(j=1,2,...,J) 1,x,x2,x3,(x−tj)+3(j=1,2,...,J)
- B-spline
- 设选定的三次样条基为
B
1
,
.
.
.
,
B
J
+
4
B_1,...,B_{J+4}
B1,...,BJ+4,则三次样条函数为:
s ( x ) = ∑ j = 1 J + 4 θ j B j s(x)=\sum_{j=1}^{J+4}\theta_jB_j s(x)=j=1∑J+4θjBj
上面的未知参数 θ j \theta_j θj可以通过极小化
∑ i = 1 n { Y i − ∑ j = 1 J + 4 θ j B j ( x i ) } 2 \sum_{i=1}^n\left\{Y_i-\sum_{j=1}^{J+4}\theta_jB_j(x_i)\right\}^2 i=1∑n{Yi−j=1∑J+4θjBj(xi)}2
得到。 - J被称为光滑参数,基由节点唯一确定。随着节点数目减少,B样条估计的方差越小,偏差越大。节点个数在拟合数据和光滑程度之间起到平衡作用
光滑样条估计
是一种惩罚最小二乘方法。与上述样条方法的不同在于,它是自动选取节点。表现在公式上就是,在原来的基础上加上一些惩罚项,避免自动选取节点时将所有的点都考虑在内造成过拟合。
如最小二乘估计:
∑
i
=
1
n
{
Y
i
−
m
(
x
i
)
}
2
+
λ
∫
(
m
′
′
(
x
)
)
2
d
x
\sum_{i=1}^n\left\{Y_i-m(x_i)\right\}^2+\lambda\int(m''(x))^2dx
i=1∑n{Yi−m(xi)}2+λ∫(m′′(x))2dx
后面一项就是惩罚项,要求m具有二阶连续导数
半参数模型
五类重要的半参数模型:
- 若影响L的因素可以分为两个部分,即
b
1
,
.
.
.
b
p
和
t
1
,
.
.
.
,
t
q
,
(
p
+
q
=
n
)
b_1,...b_p和t_1,...,t_q,(p+q=n)
b1,...bp和t1,...,tq,(p+q=n)。根据经验可知
b
i
b_i
bi是主要因素,且L与
b
i
b_i
bi的关系为线性,
t
j
t_j
tj则是某种干扰因素,两者关系未知,且没有理由将其放入误差项,从而有:
L i = b i T x + g ( t i ) + σ i Δ i L_i=b_i^Tx+g(t_i)+\sigma_i\Delta_i Li=biTx+g(ti)+σiΔi
其中 Δ i \Delta_i Δi为i.i.d随机误差,且 E ( Δ i ) = 0 , E ( Δ i 2 ) = 1 E(\Delta_i)=0, E(\Delta_i^2)=1 E(Δi)=0,E(Δi2)=1 - 若影响L的因素b可分为两部分:线性与非线性,且无法将任何一部分归入误差项,从而:
L i = b i T x + g ( b i ) + σ i Δ i L_i=b_i^Tx+g(b_i)+\sigma_i\Delta_i Li=biTx+g(bi)+σiΔi - 影响L的因素除了线性部分和偶然误差外,其余部分很复杂,无法用少数参数表示,从而:
L = B x + S + Δ L =Bx+S+\Delta L=Bx+S+Δ
其中 S = ( s 1 , . . . s n ) T S=(s_1,...s_n)^T S=(s1,...sn)T是描述模型误差或系统误差的n维未知向量,B是列满秩设计矩阵, Δ \Delta Δ是偶然误差 - 影响L的因素可以表示成线性部分和非参数部分的未知函数:
L i = f ( b i T x + g ( t i ) ) + Δ i L_i=f(b_i^Tx+g(t_i))+\Delta_i Li=f(biTx+g(ti))+Δi
上述模型是广义半参数模型 - 存在删失数据的情况下:
L i = b i T x + g ( T i ) + e i L_i=b_i^Tx+g(T_i)+e_i Li=biTx+g(Ti)+ei
其中 g ( ) g() g()为[0,1]上未知的Borel函数, { b i T , T i } \left\{b_i^T,T_i\right\} {biT,Ti}为 R d × [ 0 , 1 ] R^d \times [0,1] Rd×[0,1]上的随即设计或常数序列,随机误差序列 { e i } \left\{e_i\right\} {ei}满足 E e i = 0 , E e i 2 = σ i 2 < ∞ Ee_i=0, Ee_i^2=\sigma_i^2<\infty Eei=0,Eei2=σi2<∞。
半参数模型的估计方法
- 参数化估计
对函数空间施加限制(光滑性),利用合理的逼近形式,(如: g ( t ) = ∑ i λ i e i g(t)=\sum_i\lambda_ie_i g(t)=∑iλiei,其中 e i e_i ei是一组基)参数化非参部分,将估计 g ( t ) g(t) g(t)问题转化为估计有限维参数,从而可以使用线性模型的方法同时估计x和 λ \lambda λ - 两步估计
将参数方法与非参数方法综合,参数部分使用最小二乘法,非参数部分可以使用样条估计,核估计,近邻估计等等。。。 - 二阶段估计
将半参数模型变成标准的线性模型,利用最小二乘估计法得到参数分量的第一次估计,并由新模型的残差得出非参数分量的估计,再将非参数分量的估计代回元模型,再次利用最小二乘法得到参数分量的估计 - 稳健估计-M估计
最小二乘法缺乏稳健性,因此考虑使用半参数M估计作为替代,上述思想仍然可以使用 - 补偿最小二乘法
既考虑了估计量数据的拟合,还顾及了非参数分量估计的光滑性,是最广泛使用的方法
惩罚最小二乘法
针对第三类模型:
- 对正规化后的残差求期望,由于有偏,所以对目标函数(正规化的残差)进行修正,再添加一些光滑性限制条件
- 针对目标函数利用拉格朗日乘数法求解,从而得到X和S的估计
- 最后如果需要对非参部分参数化,可以利用一些非参的方法对S的值建立回归模型
二阶段法
针对第一类模型:
- 假设x已知,利用最小二乘估计得到x得到第一阶段估计 x ^ \hat{x} x^
- 由新模型的残差,利用近邻核权函数得到非参分量的第一阶段估计 g ^ \hat{g} g^
- 为了改进x的估计,再第一阶段的基础上,将 g ^ \hat{g} g^带入原模型,再对模型利用最小二乘法,求得 x ^ \hat{x} x^,称为第二阶段估计
- 再将 x ^ \hat{x} x^带入 g ^ \hat{g} g^的非参估计式,得到 g ^ \hat{g} g^的第二阶段估计
x ^ \hat{x} x^和 g ^ \hat{g} g^具有渐近正态性、相合性等良好性质