半参数模型

最新推荐文章于 2023-02-15 17:29:32 发布

cigarrrr

最新推荐文章于 2023-02-15 17:29:32 发布

阅读量3.9k

点赞数 3

分类专栏：理论文章标签：回归

本文链接：https://blog.csdn.net/cigarrrr/article/details/127267880

版权

理论专栏收录该内容

1 篇文章 0 订阅

订阅专栏

非参数回归模型

对回归函数f()的具体形式不做任何假定或是只做一些简单的光滑性要求，依靠观测数据寻求f()的特征

非参数光滑方法

权函数估计

基于局部加权的思想，利用周围的点拟合某点处回归函数的值。
假设要估计 $x_0$ 对应的 $m(x_0)$ ， $\left\{y_i,x_i\right\}$ 对应的权函数为 $W_{ni}(x_0)$ ，则加权估计为：
$\hat{m}(x_0)=\sum_{i=1}^nW_{ni}(x_0)Y_i$
常用的包括核估计方法、局部多项式估计方法

最小二乘法

利用参数空间逼近无穷维参数空间，基于不同的逼近思想构造参数空间的基函数，将未知函数（无穷维参数）的估计问题转为（有限个）未知参数的估计问题，从而利用最小二乘法得到估计。

样条方法

多项式回归的一种推广。利用分段不同阶数的多项式拟合数据，使得两个多项式函数在knots处可以允许不连续的导数，这样使得估计的回归函数更具有灵活性。
设 $t_1, t_2,..., t_J$ 为固定节点，这些节点将实直线划分为多个区间。以三次样条为例，有连续二阶导，并且在每个区间内都是三次多项式。所有的三次样条函数形成一个J+4维的线性空间。
常见三次样条基：

幂基： $1, x, x^2, x^3, (x-t_j)^3_+(j=1,2,...,J)$
B-spline

设选定的三次样条基为 $B_1,...,B_{J+4}$ ，则三次样条函数为：
$s(x)=\sum_{j=1}^{J+4}\theta_jB_j$
上面的未知参数 $\theta_j$ 可以通过极小化
$\sum_{i=1}^n\left\{Y_i-\sum_{j=1}^{J+4}\theta_jB_j(x_i)\right\}^2$
得到。
J被称为光滑参数，基由节点唯一确定。随着节点数目减少，B样条估计的方差越小，偏差越大。节点个数在拟合数据和光滑程度之间起到平衡作用

光滑样条估计

是一种惩罚最小二乘方法。与上述样条方法的不同在于，它是自动选取节点。表现在公式上就是，在原来的基础上加上一些惩罚项，避免自动选取节点时将所有的点都考虑在内造成过拟合。
如最小二乘估计：
$\sum_{i=1}^n\left\{Y_i-m(x_i)\right\}^2+\lambda\int(m''(x))^2dx$
后面一项就是惩罚项，要求m具有二阶连续导数

半参数模型

五类重要的半参数模型：

若影响L的因素可以分为两个部分，即 $b_1,...b_p和t_1,...,t_q，(p+q=n)$ 。根据经验可知 $b_i$ 是主要因素，且L与 $b_i$ 的关系为线性， $t_j$ 则是某种干扰因素，两者关系未知，且没有理由将其放入误差项，从而有：
$L_i=b_i^Tx+g(t_i)+\sigma_i\Delta_i$
其中 $\Delta_i$ 为i.i.d随机误差，且 $E(\Delta_i)=0, E(\Delta_i^2)=1$
若影响L的因素b可分为两部分：线性与非线性，且无法将任何一部分归入误差项，从而：
$L_i=b_i^Tx+g(b_i)+\sigma_i\Delta_i$
影响L的因素除了线性部分和偶然误差外，其余部分很复杂，无法用少数参数表示，从而：
$=Bx+S+\Delta$
其中 $S=(s_1,...s_n)^T$ 是描述模型误差或系统误差的n维未知向量，B是列满秩设计矩阵， $\Delta$ 是偶然误差
影响L的因素可以表示成线性部分和非参数部分的未知函数：
$L_i=f(b_i^Tx+g(t_i))+\Delta_i$
上述模型是广义半参数模型
存在删失数据的情况下：
$L_i=b_i^Tx+g(T_i)+e_i$
其中 $g ()$ 为[0,1]上未知的Borel函数， $\left\{b_i^T,T_i\right\}$ 为 $R^d \times [0,1]$ 上的随即设计或常数序列，随机误差序列 $\left\{e_i\right\}$ 满足 $Ee_i=0, Ee_i^2=\sigma_i^2<\infty$ 。

半参数模型的估计方法

参数化估计
对函数空间施加限制（光滑性），利用合理的逼近形式，（如： $g(t)=\sum_i\lambda_ie_i$ ，其中 $e_i$ 是一组基）参数化非参部分，将估计 $g (t)$ 问题转化为估计有限维参数，从而可以使用线性模型的方法同时估计x和 $\lambda$
两步估计
将参数方法与非参数方法综合，参数部分使用最小二乘法，非参数部分可以使用样条估计，核估计，近邻估计等等。。。
二阶段估计
将半参数模型变成标准的线性模型，利用最小二乘估计法得到参数分量的第一次估计，并由新模型的残差得出非参数分量的估计，再将非参数分量的估计代回元模型，再次利用最小二乘法得到参数分量的估计
稳健估计-M估计
最小二乘法缺乏稳健性，因此考虑使用半参数M估计作为替代，上述思想仍然可以使用
补偿最小二乘法
既考虑了估计量数据的拟合，还顾及了非参数分量估计的光滑性，是最广泛使用的方法