稳健估计方法

众所周知,最小二乘法对于异常值非常敏感,所以在面对污染数据时常常需要稳健方法。Huber提出的M估计是最流行的稳健回归估计量之一。常用的稳健估计方法通常都是针对回归模型,或者说是基于最小二乘方法。对于回归模型

y=x\beta+\epsilon

最小二乘法得到的估计量为

\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^n(y_i-x_i\beta)^2

本文介绍了几种基于回归模型的稳健估计方法。

1.Huber回归估计量为

\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^nl_\tau(e_i)

其中 e_i=y_i-x_i\beta\tau为预先给定的阈值。

l(e_i)=\left\{\begin{matrix} \frac{1}{2}e_i^2 ,& |e_i|\leq\tau,\\ \tau|e_i|-\frac{1}{2}\tau^2,& |e_i|>\tau .\end{matrix}\right.

由上式可以看出,在残差绝对值|e_i|小于阈值\tau时,仍然采用平方损失。在残差绝对值大于阈值时,认为该数据值为异常值,通过绝对值损失来降低对应数据点的权重。平方损失可以得到无偏估计,但对于异常值敏感,而绝对值损失得到的是分布的最大值,不受边界值的影响。

2.自适应HUber回归

Sun et al.(2020)在Adaptive Huber Regression中提出了自适应Huber回归方法。其大体做法和Huber回归相同,只是阈值\tau的选择采用自适应的方法,通过适应样本量、维数和矩在偏差和稳健性之间权衡。该论文的理论框架处理任意(1 + δ)阶矩有界的重尾分布。

3.指数平方损失

Wang et al.(2013)在Robust Variable Selection With Exponential Squared Loss中提出了一类基于指数平方损失的惩罚鲁棒回归估计量。在给定的正则条件下,该论文的估计量是\sqrt{n}一致的,并且具有oracle属性。重要的是,该论文证明了估计量可以达到1/2的最高渐近击穿点,并且它们的影响函数与响应或协变量域的异常值有关。其估计量如下

\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^n\exp\{-(y_i-x_i\beta)^2/\gamma_n\}-n\sum_{j=1}^pp_{\lambda_{nj}}(|\beta_j|)

其中\gamma_n是调整参数,\lambda是惩罚参数。

4.Tukey's Biweight损失

Chang et al.(2018)在Robust Lasso Regression Using Tukey’s Biweight Criterion中提出了一种自适应lasso的扩展,称为tukey-lasso。通过使用Tukey的双权准则,而不是平方损失,Tukey-lsaao在响应和协变量中都能抵抗异常值。该论文证明了Tukey-lasso也享有oracle属性。其估计量如下

\hat{\beta}=\arg\min_{\beta}2\sum_{i=1}^n\rho_d\left(\frac{y_i-x_i\beta}{\hat{\sigma}}\right )-n\sum_{j=1}^pp_{\lambda_{nj}}(|\beta_j|)

其中\hat{\sigma}为随机误差\epsilon的标准差的稳健估计,

\rho_d(u)=\left\{ \begin{matrix} \frac{d^2}{6}\{1-[1-(\frac{u}{d})^2]^3\},&|u|\leq d,\\ \frac{d^2}{6},&|u|>d. \end{matrix} \right.

其中d是调整常数,类似于Huber损失中的阈值,可以控制稳健性水平。

5.修改的Huber函数

Jiang et al.(2019)在Robust Estimation Using Modified Huber’s Functions With New Tails中通过将Huber函数的尾部替换为指数平方损失来进行稳健估计。在回归框架中,证明了该论文的混合估计量是高效的,达到了50%的最高渐近击穿点。该论文还建立了正则条件下估计量的\sqrt{n}-一致性和渐近正态性。

\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^n\rho_{\tau,\lambda}\left(\frac{y_i-x_i\beta}{S_n}\right )

其中S_n是尺度参数,是基于残差r_i=y_i-x_i\tilde{\beta}_{\text{INI}}的归一化中值绝对偏差(MAD)估计量,例如,S_n=1.4826\times\text{median}_i(|r_i-\text{median}_j(r_j))|)

\rho_{\tau,\lambda}(u)=\left\{\begin{matrix}\frac{1}{2}u^2,&|u|\leq \tau,\\ \frac{\lambda+\tau^2}{2}[1-\frac{\lambda}{\lambda+\tau^2}\exp (-(u^2-\tau^2)/\lambda)],&|u|>\tau. \end{matrix}\right.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值