python计算方差函数_How to Simulate Better 2.0 | 方差计算:非光滑估计函数的有效重抽样方法...

本文介绍了如何使用Python进行方差计算,包括简单估计方程的构造、ROC曲线、辅助信息线性模型以及非光滑估计函数的有效重抽样方法。通过对估计方程的一般理论探讨,阐述了在处理非光滑估计函数时,Zeng和Lin(2008)提出的简单而快速的重抽样策略,该方法在处理生物统计和半参数问题时尤其有效。
摘要由CSDN通过智能技术生成

217fda4c1e24cdfae336c600acca614a.png

How to Simulate Better毕竟是打算反反复复看的,观感得友好一点,所以大面积的公式、定理统一集中放在这篇我写完肯定不会再看的2.0。

题图是当事人主页上的官方照官方照官方照(现在UNC的主页打不开,不过现在应该换了另一张很久了),真的不是不是不是表情包……

25d6768cb1d9ead5b2f1f955e2273c6c.png
多么真诚

1 估计方程的一般理论

首先我们回顾一下估计方程的一般收敛性质,此处的表述和推导并不严格,旨在初步归纳估计方程估计的性质及其推导方法的套路,从而把握其特点。

假设估计函数

equation?tex=%5Cpsi%28X%2C+%5Cboldsymbol%7B%5Ctheta%7D%29 是一个
equation?tex=p 维向量,且满足

equation?tex=%5Cmathbb%7BE%7D%5Cpsi%28X%2C+%5Cboldsymbol%7B%5Ctheta%7D%29%3D0

并假定

equation?tex=%5Ctheta_0
equation?tex=q 维参数
equation?tex=%5Ctheta 的唯一真值,同时
equation?tex=%5Cpsi%28X%2C+%5Ctheta%29 关于参数
equation?tex=%5Ctheta_0 连续可微。设
equation?tex=%5Chat%7B%5Ctheta%7D 是下述方程的唯一解,即
估计方程估计

equation?tex=%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cpsi%5Cleft%28X_%7Bi%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D%5Cright%29%3D0 (1)

其中,

equation?tex=X_%7B1%7D%2C+%5Ccdots%2C+X_%7Bn%7D 是独立同分布的观测样本。

如果方程(1)存在解,那么求解方程(1)就可以得到参数

equation?tex=%5Ctheta 的估计值
equation?tex=%5Chat%7B%5Ctheta%7D . 通常也还会要求方程(1)的解唯一。在一些温和条件下,可以证明
equation?tex=%5Chat%7B%5Ctheta%7D
equation?tex=%5Ctheta_0 的相合估计,且具有渐近正态性。

1.1 简单估计方程的构造

一个最为简单的例子。假设

equation?tex=X 是均值为
equation?tex=%5Cmu ,方差为
equation?tex=%5Csigma%5E2 的随机变量,其观测样本为
equation?tex=X_%7B1%7D%2C+%5Ccdots%2C+X_%7Bn%7D,记估计函数为

equation?tex=%5Cpsi%28X%2C%5Cmu%29%3DX-%5Cmu

两边取期望,则显然有

equation?tex=%5Cmathbb%7BE%7D%5Cpsi%28X%2C+%5Cboldsymbol%7B%5Ctheta%7D%29%3D0 ,因此得到地球上最简单的估计方程

equation?tex=%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cpsi%5Cleft%28X_%7Bi%7D%2C+%5Cmu%5Cright%29%3D%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%28X_i-%5Cmu%29%3D0

于是,可以得到

equation?tex=%5Cmu 的估计为

equation?tex=%5Chat%7B%5Cmu%7D%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7DX_i

行吧,绕了一圈依旧得到了一个通常意义下的均值估计。但不要难受,Less is more. 别看均值估计很普通、很常见,但它肯定还够再玩个至少一千年的。

同样地,为了估计方差,注意到

equation?tex=%5Cmathbb%7BE%7D%28X-%5Cmu%29%5E2%3D%5Cfrac%7Bn-1%7D%7Bn%7D%5Csigma%5E2

因此,可以设计估计方程为

equation?tex=%5Cpsi%28X%2C%5Csigma%29%3D%28X-%5Chat%7B%5Cmu%7D%29%5E2-%5Cfrac%7Bn-1%7D%7Bn%7D%5Csigma%5E2

于是得到估计方程

equation?tex=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cleft%28X_%7Bi%7D-%5Cwidehat%7B%5Cmu%7D%5Cright%29%5E%7B2%7D-%5Cfrac%7Bn-1%7D%7Bn%7D+%5Csigma%5E%7B2%7D%5Cright%29%3D0

(乘一个

equation?tex=%5Cfrac%7B1%7D%7Bn%7D 看起来更像均值也是可以的,但这不影响什么)

从而得到

equation?tex=%5Csigma%5E2 的估计为

equation?tex=%5Cwidehat%7B%5Csigma%7D%5E%7B2%7D%3D%5Cfrac%7B1%7D%7Bn-1%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28X_%7Bi%7D-%5Cwidehat%7B%5Cmu%7D%5Cright%29%5E%7B2%7D%3D%5Cfrac%7B1%7D%7Bn-1%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28X_%7Bi%7D-%5Cbar%7BX%7D%5Cright%29%5E%7B2%7D.

这也是通常意义下的方差估计。同时,在独立观测样本下,这两个估计也是正态假设下的极大似然估计——换而言之,正态假设下,极大似然估计是广义估计方程估计的一个特例。

1.2 ROC曲线

ROC曲线是生物统计和统计质量控制中广泛使用的函数,其定义如下:假设两样本

equation?tex=X_1%2C%5Ccdots%2CX_n%5Cstackrel%7Bi.i.d.%7D%7B%5Csim%7DF
equation?tex=Y_1%2C%5Ccdots%2CY_m%5Cstackrel%7Bi.i.d.%7D%7B%5Csim%7DG
equation?tex=F
equation?tex=G 为总体分布函数,那么ROC曲线就是

equation?tex=%5Coperatorname%7BROC%7D%28p%29%3D1-F%5Cleft%28G%5E%7B-1%7D%281-p%29%5Cright%29

其中

equation?tex=0+%5Cleqslant+p+%5Cleqslant+1 . 当两总体分布相同,它在坐标
equation?tex=%28p%2C+%5Coperatorname%7BROC%7D%28p%29%29 中就是斜率为
equation?tex=1 的直线。考虑半参数情况,假设
equation?tex=F 是完全未知的分布函数,而
equation?tex=G 是一个参数分布,即
equation?tex=G%3DG_%7B%5Ctheta%7D%28x%29 ,此时,如何给出参数ROC曲线的估计呢?

一个简单粗暴的办法是对

equation?tex=F 使用其经验分布函数
equation?tex=F_n%28x%29 ,而对于参数
equation?tex=%5Ctheta 则使用其极大似然估计,从而获得
equation?tex=ROC 曲线的一个估计。如果假设两样本之间是独立的,则可以证明此估计具有极好的性质:相合性和渐近正态性。

但既然大主题是简要介绍一下估计方程估计,那么,这样一个估计自然也是可以通过估计方程来获得的嘛!(不然写了干嘛)

比如,记

equation?tex=%5CDelta_%7Bp%7D%3D1-F%5Cleft%28G%5E%7B-1%7D%281-p%29%5Cright%29 ,则一个简单的估计函数就是

equation?tex=%5Cpsi%5Cleft%28Y%2C+%5CDelta_%7Bp%7D%2C+%5Ctheta%5Cright%29%3D%5CDelta_%7Bp%7D-%5Cleft%5B1-I%5Cleft%28X+%5Cleqslant+G_%7B%5Ctheta%7D%5E%7B-1%7D%281-p%29%5Cright%29%5Cright%5D

对于给定的

equation?tex=%5Ctheta
equation?tex=E+%5Cpsi%5Cleft%28Y%2C+%5CDelta_%7Bp%7D%2C+%5Ctheta%5Cright%29%3D0 ,很自然地由样本类似

equation?tex=%5Cwidehat%7B%5CDelta%7D_%7Bp%7D%3D1-%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+I%5Cleft%28X_%7Bi%7D+%5Cleqslant+G_%7B%5Ctheta%7D%5E%7B-1%7D%281-p%29%5Cright%29.

对上式中

equation?tex=%5Ctheta 以简单粗暴的极大似然估计
equation?tex=%5Chat%7B%5Ctheta%7D 替代,那么便可得到ROC曲线的估计方程估计

equation?tex=%5Cwidehat%7B%5CDelta%7D_%7Bp%7D%3D1-%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+I%5Cleft%28X_%7Bi%7D+%5Cleqslant+G_%7B%5Cwidehat%7B%5Ctheta%7D%7D%5E%7B-1%7D%281-p%29%5Cright%29

当然,这种方法已经不再是严格意义上的广义估计方程估计了,但一般也被称为估计方程估计,它仍然有许多与估计方程估计相似的性质。这类方法在半参数统计中也是常见的,其基本思想是:先应用估计方程给出一个合理的估计,而它可能依赖某些冗余参数,所以再用冗余参数的相合估计代入,便可得到感兴趣的估计方程估计。

可以证明,若两样本的观察分别是独立同分布的随机变量,且两样本间相互独立,该估计是相合的,也是渐近正态的。

1.3 辅助信息线性模型

考虑线性回归模型

equation?tex=Y%3DZ+%5Ctheta%2B%5Cvarepsilon%2C (2)

其中,随机误差项

equation?tex=%5Cvarepsilon 来自于一个对称的分布,
equation?tex=%5Cmathbb%7BE%7D%5Cvarepsilon%3D0
equation?tex=%5Cmathbb%7BE%7D%5Cvarepsilon%5E2%3D%5Csigma%5E2 ,
equation?tex=%5Cboldsymbol%7B%5Ctheta%7D
equation?tex=p 维的未知参数向量。

众所周知,只要满足一些条件,

equation?tex=%5Cmathbb%7BE%7D%5Cvarepsilon%3D0 且方差存在,并不需要假定误差分布的具体形式,最小二乘估计便具有无偏性,也是最优线性无偏估计(BLUE),同时也满足渐近正态性。

此外,如果对误差项假设了参数分布,通常会带来模型误判。但是在很多情况下,由于误差项的值经常会有正有负,因此假设误差项无从一个对称分布似乎更为合理。因此,误差服从对称分布也是一个有用的信息。而即使误差分布不一定是对称的,只需要知道其某一个分位数,也同样可以给模型提供有用的辅助信息。对于参数估计,知道残差项关于

equation?tex=0 对称,或者知道误差分布的某一个分位数等,都是一些有用的辅助信息。

这些辅助信息通常很有价值,可以给参数估计与统计推断提供更多的有用信息。但如果我们采用通常的最小二乘法进行参数估计的话,则并没有利用到上述的辅助信息。若是能够在参数推断过程中,有效使用这些有价值的辅助信息的话,肯定能够大大改善估计的效率。

那么,如何利用这些辅助信息呢?实际上,这个问题就相当于把最小二乘估计和分位数回归有机结合到一起。

模型(2)中,参数

equation?tex=%5Ctheta 的最小二乘估计的正则方程为

equation?tex=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cboldsymbol%7BZ%7D_%7Bi%7D%5E%7B%5Ctau%7D%5Cleft%28Y_%7Bi%7D-%5Cboldsymbol%7BZ%7D_%7Bi%7D+%5Ctheta%5Cright%29%3D0%2C (3)

其中上面的方程组数与参数

equation?tex=%5Ctheta 的维数相同。同时,如果误差分布是对称的,我们也可以得到中位数回归估计方程如下:

equation?tex=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cboldsymbol%7BZ%7D_%7Bi%7D%5E%7B%5Ctau%7D%5Cleft%5B1+%2F+2-I%5Cleft%28Y_%7Bi%7D-%5Cboldsymbol%7BZ%7D_%7Bi%7D+%5Ctheta+%5Cleqslant+0%5Cright%29%5Cright%5D%3D0 (4)

该方程可以视为关于未知参数

equation?tex=%5Ctheta 的辅助信息。当然,我们也可以把(3)式视为(4)式的辅助信息。

将辅助信息考虑进来,便可以得到如下无偏估计函数

equation?tex=%5Cpsi%28Y%2C+%5Cboldsymbol%7BZ%7D%2C+%5Ctheta%29%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cboldsymbol%7BZ%7D%5E%7B%5Ctau%7D%28Y-%5Cboldsymbol%7BZ%7D+%5Cboldsymbol%7B%5Ctheta%7D%29+%5C%5C+%5Cboldsymbol%7BZ%7D%5E%7B%5Ctau%7D%281+%2F+2-I%28Y-%5Cboldsymbol%7BZ%7D+%5Cboldsymbol%7B%5Ctheta%7D+%5Cleqslant+0%29%29+%5Cend%7Barray%7D%5Cright%29. (5)

注意到,这个估计函数是

equation?tex=q%3D2p 维的函数向量。显然在此处
equation?tex=q%3Ep ,这是一个过渡识别方程组,即估计方程的个数多于未知参数的个数。过渡识别方程组能够使我们在对感兴趣的未知参数进行估计和推断时,将辅助信息有效地加以利用,这有助于大大提高估计效率。

从直观上来说,信息越多,那么对参数的估计将会越准确。此时,使用通常的方法可能找不到

equation?tex=%5Ctheta 的一个
equation?tex=p 维估计能够同时满足
equation?tex=q 个估计方程。对于处理带有辅助信息的参数估计方法有几种,但我们比较喜闻乐见的是应用广义矩估计或估计方程方法和经验似然法。

equation?tex=%5Ctheta 的最小二乘估计中的正则方程可以推出一个无偏估计函数
equation?tex=%5Cpsi_1 ,它满足

equation?tex=%5Cmathbb%7BE%7D%5Cpsi_%7B1%7D%5Cleft%28Y_%7Bi%7D%2C+%5Cboldsymbol%7BZ%7D_%7Bi%7D%2C+%5Ctheta%5Cright%29%3D%5Cmathbb%7BE%7D%5Cleft%5B%5Cboldsymbol%7BZ%7D_%7Bi%7D%5E%7B%5Ctau%7D%5Cleft%28Y_%7Bi%7D-%5Cboldsymbol%7BZ%7D_%7Bi%7D+%5Ctheta%5Cright%29%5Cright%5D%3D0%2C (6)

其中,上述无偏估计函数向量

equation?tex=%5Cpsi_1 与参数
equation?tex=%5Ctheta 维数相同。同时,如果知道误差分布的均值为
equation?tex=0 且对称,也可以由中位数回归估计方程得到无偏估计函数
equation?tex=%5Cpsi_2 ,使得

equation?tex=%5Cmathbb%7BE%7D%5Cpsi_%7B2%7D%5Cleft%28Y_%7Bi%7D%2C+%5Cboldsymbol%7BZ%7D_%7Bi%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D%5Cright%29%3D%5Cmathbb%7BE%7D%5Cleft%5C%7B%5Cboldsymbol%7BZ%7D_%7Bi%7D%5E%7B%5Ctau%7D%5Cleft%5B1+%2F+2-I%5Cleft%28Y_%7Bi%7D-%5Cboldsymbol%7BZ%7D_%7Bi%7D+%5Cboldsymbol%7B%5Ctheta%7D+%5Cleqslant+0%5Cright%29%5Cright%5D%5Cright%5C%7D%3D0%2C (7)

综合以上信息,可以得到如下估计函数

equation?tex=%5Cpsi%28Y%2C+%5Cboldsymbol%7BZ%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D%29%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cboldsymbol%7BZ%7D%5E%7B%5Ctau%7D%28Y-%5Cboldsymbol%7BZ%7D+%5Cboldsymbol%7B%5Ctheta%7D%29+%5C%5C+%5Cboldsymbol%7BZ%7D%5E%7B%5Ctau%7D%281+%2F+2-I%28Y-%5Cboldsymbol%7BZ%7D+%5Cboldsymbol%7B%5Ctheta%7D+%5Cleqslant+0%29%29+%5Cend%7Barray%7D%5Cright%29. (8)

显然,

equation?tex=%5Cpsi_2 关于参数是不连续的,因此,这是非光滑的估计函数。在此,利用这些辅助信息(无偏估计函数)来构造无偏的估计方程,然后光滑化非光滑的估计函数,利用经验似然估计和广义矩估计,来改善对未知参数
equation?tex=%5Ctheta 的估计,处理非光滑估计函数的一个可行办法是利用核函数对非光滑估计函数进行光滑化。具体的方法将在之后详细展示。

1.4 渐近性质

以下给出一个简单情形下的渐近正态性表述,更复杂的情况情况参考《广义估计方程估计方法》第十章定理10.1-定理10.3.及该章附录。

定理1 在一些必要假设下,并设

equation?tex=p%3Dq (估计方程维数与真实参数维数相等),且估计方程估计
equation?tex=%5Chat%7B%5Ctheta%7D
equation?tex=%5Ctheta_0%5Cin%5CTheta 的相合估计,
equation?tex=%5CTheta 是一个
equation?tex=p 维开集,同时假设
equation?tex=%5Cmathbb%7BE%7D+%5Cpsi%5E%7B2%7D%28X%2C+%5Ctheta%29 存在。则有

equation?tex=%5Csqrt%7Bn%7D%28%5Chat%7B%5Cboldsymbol%7B%5Ctheta%7D%7D-%5Cboldsymbol%7B%5Ctheta%7D%29+%5Cstackrel%7B%5Cmathscr%7BD%7D%7D%7B%5Clongrightarrow%7D+N%280%2C+%5CSigma%29%2C

其中,

equation?tex=%5CSigma%3DA%5E%7B-1%7D+B%5Cleft%28A%5E%7B-1%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D

equation?tex=A%3D%5Cleft.%5Clim+_%7Bn+%5Crightarrow+%5Cinfty%7D+%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cnabla_%7B%5Ctheta%7D+%5Cpsi%5Cleft%28X_%7Bi%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D%5Cright%29%5Cright%7C_%7B%5Ctheta_%7B0%7D%7D%3DE%5Cleft%5B%5Cnabla_%7B%5Ctheta%7D+%5Cboldsymbol%7B%5Cpsi%7D%5Cleft%28X_%7Bi%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D_%7B0%7D%5Cright%29%5Cright%5D%2C+%5Cquad+B%3D%5Coperatorname%7BCov%7D%5Cleft%28%5Cboldsymbol%7B%5Cphi%7D%5Cleft%28X_%7Bi%7D%2C+%5Cboldsymbol%7B%5Ctheta%7D_%7B0%7D%5Cright%29%5Cright%29.

:本文的重点是介绍如何进行模拟,详细的假设条件与理论证明将留在后续文章中详细讨论。

通常,我们称估计方程估计

equation?tex=%5Chat%7B%5Ctheta%7D 具有(渐近)三明治协方差阵
equation?tex=%5CSigma%3DA%5E%7B-1%7DB%28A%5E%7B-1%7D%29%5E%7B%5Cmathrm%7BT%7D%7D . 当估计函数为得分函数时,定理的结果就是极大似然估计的渐近正态性。特别的,当
equation?tex=A%3DB%3DI%28%5Ctheta%29 ,也就是极大似然估计的信息阵。

如果要对此进行模拟,就需要掌握如下几点:

  1. 找到合适的算法来求解方程(1),这在一般的软件都有子程序来求解。但需要搞清楚如何调用。
  2. 渐近方差公式中,因为其是三明治协方差阵,需要估计两部分:如何计算
    equation?tex=A
    equation?tex=B . 在很多时候,这并没有一个很好的表达式,直接代入法可能不起作用。

当代入法可用时,上述的三明治方差计算就容易得多。可以直接使用如下估计

equation?tex=%5Chat%7BA%7D%3D%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cnabla_%7B%5Cboldsymbol%7B%5Ctheta%7D%7D+%5Cboldsymbol%7B%5Cpsi%7D%5Cleft%28X_%7Bi%7D%2C+%5Chat%7B%5Cboldsymbol%7B%5Ctheta%7D%7D%5Cright%29

equation?tex=%5Chat%7BB%7D%3D%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cpsi%5Cleft%28X_%7Bi%7D%2C+%5Chat%7B%5Cboldsymbol%7B%5Ctheta%7D%7D%5Cright%29+%5Cpsi%5Cleft%28X_%7Bi%7D%2C+%5Chat%7B%5Cboldsymbol%7B%5Ctheta%7D%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D

这里因为

equation?tex=%5Cmathbb%7BE%7D+%5Cpsi%5Cleft%28X%2C+%5Ctheta_%7B0%7D%5Cright%29%3D0 ,观测是独立样本,所以上面的交叉项并不存在。

接下来将以一个非光滑函数的例子来介绍方差的具体算法。

2 非光滑估计函数的有效重抽样方法

针对由非光滑函数导出的参数估计量,Zeng和Lin(2008)提出了一种简单而通用的重抽样策略,来得到参数估计量的渐进方差。该方法适用于生物统计中的多种半参数和非参数问题,且不需要求解估计方程,只需要产生随机数和估计函数的计算,因此比现有的重抽样程序要快得多,更有效也更稳定。

2.1 问题描述

equation?tex=%5Ctheta_%7B0%7D记为一个
equation?tex=d 维参数向量,我们通过求解估计方程
equation?tex=U_%7Bn%7D%28%5Ctheta%29%3D0 来估计
equation?tex=%5Ctheta_%7B0%7D ,其中
equation?tex=U_n 是一个基于
equation?tex=n 个独立观测值并使得
equation?tex=n%5E%7B-1%7D+U_%7Bn%7D%5Cleft%28%5Ctheta_%7B0%7D%5Cright%29+%5Cstackrel%7Bp%7D%7B%5Crightarrow%7D+0 的函数。

假设解

equation?tex=%5Cwidehat%7B%5Ctheta%7D 存在且具有相合性,同样假设,一致地在
equation?tex=%5Ctheta_%7B0%7D 的一个邻域内,

equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Ctheta%29%3Dn%5E%7B-1+%2F+2%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+S_%7Bi%7D%2BA+n%5E%7B1+%2F+2%7D%5Cleft%28%5Ctheta-%5Ctheta_%7B0%7D%5Cright%29%2Bo_%7Bp%7D%5Cleft%281%2Bn%5E%7B1+%2F+2%7D%5Cleft%5C%7C%5Ctheta-%5Ctheta_%7B0%7D%5Cright%5C%7C%5Cright%29 (2.1)

其中,

equation?tex=S_%7Bi%7D%28i%3D1%2C+%5Cldots%2C+n%29 是独立零均值向量,
equation?tex=A 是非奇异矩阵且是
equation?tex=n%5E%7B-1%7D+U_%7Bn%7D%5Cleft%28%5Ctheta_%7B0%7D%5Cright%29 的渐近斜率。这种渐近展开适用于各种各样的估计函数,且通常可以通过经验过程理论来验证。
equation?tex=S_i
equation?tex=U_%7Bn%7D%5Cleft%28%5Ctheta_%7B0%7D%5Cright%29 的影响函数,
equation?tex=S_i
equation?tex=A
equation?tex=%5Ctheta_%7B0%7D 都与有关,具有相依性(为了记号简洁,这里省去了
equation?tex=%5Ctheta_%7B0%7D)。由于是
equation?tex=U_%7Bn%7D%28%5Chat%7B%5Ctheta%7D%29%3D0
equation?tex=%5Chat%7B%5Ctheta%7D 是相合的,由式子(2.1)可推出
equation?tex=%5Cwidehat%7B%5Ctheta%7D
equation?tex=n%5E%7B1+%2F+2%7D -相合的,
equation?tex=n%5E%7B1+%2F+2%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D-%5Ctheta_%7B0%7D%5Cright%29 是渐近零均值正态的,并具有协方差矩阵
equation?tex=A%5E%7B-1%7D+V%5Cleft%28A%5E%7B-1%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D ,其中
equation?tex=V%3D%5Clim+_%7Bn+%5Crightarrow+%5Cinfty%7D+n%5E%7B-1%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+S_%7Bi%7D+S_%7Bi%7D%5E%7B%5Cmathrm%7BT%7D%7D 。对参数似然,
equation?tex=U_%7Bn%7D%5Cleft%28%5Ctheta_%7B0%7D%5Cright%29%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+S_%7Bi%7D
equation?tex=V%3D-A ,其中
equation?tex=S_i 是第
equation?tex=i 个观测值的得分,
equation?tex=A 是负的信息矩阵。

2.2 例子

举两个例子帮助更好的理解现在要计算的问题。

例子1:异方差分位数回归

equation?tex=i+%3D+1%5Ccdots%2C+n 时,设
equation?tex=Y_i
equation?tex=X_i 表示第
equation?tex=i 个主体的响应变量和一组协变量。假设
equation?tex=Y_i 的第
equation?tex=100%5Ctau 分位数是
equation?tex=%5Calpha_%7B0%7D%2B%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D 。我们可以通过求解方程

equation?tex=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%5C%7BI%5Cleft%28Y_%7Bi%7D-%5Calpha-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D+%5Cleqslant+0%5Cright%29-%5Ctau%5Cright%5C%7D%5Cleft%281%2C+X_%7Bi%7D%5E%7B%5Cmathrm%7BT%7D%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D%3D0

来估计

equation?tex=%5Ctheta_%7B0%7D+%5Cequiv%5Cleft%28%5Calpha_%7B0%7D%2C+%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D ,其中
equation?tex=I%28%5Ccdot%29 是示性函数。其解
equation?tex=%5Cwidehat%7B%5Ctheta%7D 可以通过最小化损失函数

equation?tex=+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Crho_%7B%5Ctau%7D%5Cleft%28Y_%7Bi%7D-%5Calpha-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29

​来求出,其中,若

equation?tex=%5Cnu%3E0
equation?tex=%5Crho_%7B%5Ctau%7D%28%5Cnu%29
equation?tex=%5Ctau+%5Cnu ,且若
equation?tex=v+%5Cleqslant+0
equation?tex=%28%5Ctau-1%29+v 。这种极小化可以用线性方法来实现。假设
equation?tex=%5Cleft%28Y_%7Bi%7D-%5Calpha_%7B0%7D-%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29 具有唯一的第
equation?tex=100+%5Ctau 分位数在
equation?tex=0 处,且有一个连续的密度函数
equation?tex=f_%7Bi%7D 使得
equation?tex=f_%7Bi%7D%280%29 严格正,估计量
equation?tex=%5Chat%7B%5Ctheta%7D 是相合的,且渐近展开式(2.1)对
equation?tex=S_%7Bi%7D%3D%5Cleft%5C%7BI%5Cleft%28Y_%7Bi%7D-a_%7B0%7D-%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D+%5Cleqslant+0%5Cright%29-%5Ctau%5Cright%5C%7D%5Cleft%281%2C+X_%7Bi%7D%5E%7B%5Cmathrm%7BT%7D%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D 成立。斜率矩阵A包含密度函数
equation?tex=f_i

例子2:删失数据的秩回归

​ 假设

equation?tex=Y_%7Bi%7D%3D%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%2B%5Cepsilon_%7Bi%7D%2C (2.2)

​其中,

equation?tex=%5Cepsilon_%7Bi%7D%28i%3D1%2C+%5Cldots%2C+n%29 是独立同分布的随机变量并且与
equation?tex=X_%7Bi%7D%28i%3D1%2C+%5Cldots%2C+n%29 独立。假设
equation?tex=Y_i 受到
equation?tex=C_i 的删失。在生存分析中,
equation?tex=Y_i
equation?tex=C_i 通常用对数尺度表示,模型(2.2)称为加速寿命或加速失效时间模型。数据由
equation?tex=%5Cleft%28%5Ctilde%7BY%7D%7Bi%7D%2C+%5CDelta%7Bi%7D%2C+X_%7Bi%7D%5Cright%29%28i%3D1%2C+%5Cldots%2C+n%29 组成,其中
equation?tex=%5Ctilde%7BY%7D%7Bi%7D%3D%5Cmin+%5Cleft%28Y%7Bi%7D%2C+C_%7Bi%7D%5Cright%29
equation?tex=%5CDelta_%7Bi%7D%3DI%5Cleft%28Y_%7Bi%7D+%5Cleqslant+C_%7Bi%7D%5Cright%29 。在给定
equation?tex=X_i 条件下,假设
equation?tex=C_i
equation?tex=Y_i 独立。可以通过估计方程

equation?tex=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5CDelta_%7Bi%7D%5Cleft%5C%7BX_%7Bi%7D-%5Cfrac%7B%5Csum_%7Bj%3D1%7D%5E%7Bn%7D+I%5Cleft%28%5Ctilde%7BY%7D_%7Bj%7D-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bj%7D+%5Cgeqslant+%5Ctilde%7BY%7D_%7Bi%7D-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29+X_%7Bj%7D%7D%7B%5Csum_%7Bj%3D1%7D%5E%7Bn%7D+I%5Cleft%28%5Ctilde%7BY%7D_%7Bj%7D-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bj%7D+%5Cgeqslant+%5Ctilde%7BY%7D_%7Bi%7D-%5Cbeta%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29%7D%5Cright%5C%7D%3D0%2C (2.3)

​来估计

equation?tex=%5Cbeta_%7B0%7D

​解决这个离散方程并不是一件易事,特别是当

equation?tex=d 很大的时候。人们可以使用二分搜索或者优化算法,比如模拟退火。Jin等人(2003)表明,线性编程可以用来获得对数秩估计的近似值。在一些温和的条件下,展开式(2.1)与下式保持一致

equation?tex=S_%7Bi%7D%3D%5CDelta_%7Bi%7D%5Cleft%5C%7BX_%7Bi%7D-%5Cfrac%7B%5CGamma_%7B1%7D%5Cleft%28%5Ctilde%7BY%7D_%7Bi%7D-%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29%7D%7B%5CGamma_%7B0%7D%5Cleft%28%5Cwidetilde%7BY%7D_%7Bi%7D-%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D%5Cright%29%7D%5Cright%5C%7D-%5Cint_%7B-%5Cinfty%7D%5E%7B%5Ctilde%7BY%7D_%7Bi%7D-%5Cbeta_%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+x_%7Bi%7D%7D%5Cleft%5C%7BX_%7Bi%7D-%5Cfrac%7B%5CGamma_%7B1%7D%28t%29%7D%7B%5CGamma_%7B0%7D%28t%29%7D%5Cright%5C%7D+%5Cmathrm%7Bd%7D+%5CLambda_%7B0%7D%28t%29

​其中,

equation?tex=%5CGamma_%7B0%7D%28t%29%3D%5Clim+%7Bn+%5Crightarrow+%5Cinfty%7D+n%5E%7B-1%7D+%5Csum%7Bi%3D1%7D%5E%7Bn%7D+I%5Cleft%28%5Cwidetilde%7BY%7D%7Bi%7D-%5Cbeta%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D+%5Cgeqslant+t%5Cright%29%2C+%5Cquad+%5CGamma_%7B1%7D%28t%29%3D%5Clim+%7Bn+%5Crightarrow+%5Cinfty%7D+n%5E%7B-1%7D+%5Csum%7Bi%3D1%7D%5E%7Bn%7D+I%5Cleft%28%5Cwidetilde%7BY%7D%7Bi%7D-%5Cbeta%7B0%7D%5E%7B%5Cmathrm%7BT%7D%7D+X_%7Bi%7D+%5Cgeqslant+t%5Cright%29+X_%7Bi%7D

​ 且

equation?tex=%5CLambda_%7B0%7D
equation?tex=%5Cepsilon_%7Bi%7D 的累积分布函数。在这种情况下,直接估计
equation?tex=A 需要对
equation?tex=%5Cepsilon_%7Bi%7D 的风险函数或密度函数进行估计。

2.3 计算方法

通过

equation?tex=%5Cwidehat%7BV%7D+%5Cequiv+n%5E%7B-1%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Cwidehat%7BS%7D%7Bi%7D+%5Cwidehat%7BS%7D%7Bi%7D%5E%7B%5Cmathrm%7BT%7D%7D 来直接估计
equation?tex=V 是自然的,其中
equation?tex=%5Cwidehat%7BS%7D%7Bi%7D 是通过将未知量的样本估计量替换为
equation?tex=S_i 得到的。在例子1中,只有
equation?tex=%5Ctheta_%7B0%7D 是未知的;在例子2中,未知量包括
equation?tex=%5Cbeta_%7B0%7D
equation?tex=%5CGamma_%7B0%7D%28%5Ccdot%29
equation?tex=%5CGamma_%7B1%7D%28%5Ccdot%29
equation?tex=%5CLambda_%7B0%7D%28%5Ccdot%29 .
equation?tex=%5Cwidehat%7BV%7D 的相合性通常可以通过经验过程论证来建立。

equation?tex=%5Cwidehat%7BS_%7Bi%7D%7D 有复杂的表达式时,从数据进行自助法更方便并且也可能更准确。令
equation?tex=U_%7Bn%7D%5E%7B%2A%7D%28%5Ctheta%29 表示基于自助法抽样的估计函数。由(2.1)可知

equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5E%7B%2A%7D%28%5Ctheta%29%3Dn%5E%7B-1+%2F+2%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+M_%7Bi%7D+S_%7Bi%7D%2BA+n%5E%7B1+%2F+2%7D%5Cleft%28%5Ctheta-%5Ctheta_%7B0%7D%5Cright%29%2Bo_%7Bp%7D%5Cleft%281%2Bn%5E%7B1+%2F+2%7D%5Cleft%5C%7C%5Ctheta-%5Ctheta_%7B0%7D%5Cright%5C%7C%5Cright%29%2C

其中,

equation?tex=M_i 表示第i个观测在自助法样本中出现的次数。因为由定义
equation?tex=U_%7Bn%7D%28%5Cwidehat%7B%5Ctheta%7D%29%3D0 ,我们可以推出

equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5E%7B%7D%28%5Cwidehat%7B%5Ctheta%7D%29%3Dn%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5E%7B%7D%28%5Cwidehat%7B%5Ctheta%7D%29-n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Cwidehat%7B%5Ctheta%7D%29%3Dn%5E%7B-1+%2F+2%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28M_%7Bi%7D-1%5Cright%29+S_%7Bi%7D%2Bo_%7Bp%7D%5Cleft%281%2Bn%5E%7B1+%2F+2%7D%5Cleft%5C%7C%5Cwidehat%7B%5Ctheta%7D-%5Ctheta_%7B0%7D%5Cright%5C%7C%5Cright%29.

由 van der Vaart and Wellner(1996)中的引理3.6.15,假设上述显示的余数项在自助法样本中一致为

equation?tex=o_%7Bp%7D%281%29 ,则给定数据时
equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5E%7B%2A%7D%28%5Cwidehat%7B%5Ctheta%7D%29 的条件分布是渐近零均值正态的,且具有协方差
equation?tex=V

为了避免非参数密度估计,我们提出了有效的重采样程序来估计A,从而估计出

equation?tex=n%5E%7B1+%2F+2%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D-%5Ctheta_%7B0%7D%5Cright%29 渐近协方差矩阵。让
equation?tex=t+%5Ctilde%7B%5Ctheta%7D%3D%5Cwidehat%7B%5Ctheta%7D%2Bn%5E%7B-1+%2F+2%7D+Z ,其中
equation?tex=Z 是一个与数据无关的零均值随机向量。由(2.1)可知
equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Cwidetilde%7B%5Ctheta%7D%29-n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Cwidehat%7B%5Ctheta%7D%29%3DA+n%5E%7B1+%2F+2%7D%28%5Ctilde%7B%5Ctheta%7D-%5Cwidehat%7B%5Ctheta%7D%29%2Bo_%7Bp%7D%281%29

由于

equation?tex=U_%7Bn%7D%28%5Cwidehat%7B%5Ctheta%7D%29%3D0
equation?tex=%5Ctilde%7B%5Ctheta%7D-%5Cwidehat%7B%5Ctheta%7D%3Dn%5E%7B-1+%2F+2%7D+Z ,我们有

equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Ctilde%7B%5Ctheta%7D%29%3DA+Z%2Bo_%7Bp%7D%281%29%2C (2.4)

因此,Zeng和Lin(2008)提出以下基于最小二乘的重采样过程。

最小二乘(LS)方法:

  • 生成
    equation?tex=Z
    equation?tex=B 个实现,记为
    equation?tex=Z_1%2C%5Ccdots%2C+Z_B
  • 计算
    equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D%2Bn%5E%7B-1+%2F+2%7D+Z_%7Bb%7D%5Cright%29%28b%3D1%2C+%5Cldots%2C+B%29
  • equation?tex=j+%3D+1 时,计算
    equation?tex=+n%5E%7B-1+%2F+2%7D+U_%7Bj+n%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D%2Bn%5E%7B-1+%2F+2%7D+Z_%7Bb%7D%5Cright%29%28b%3D1%2C+%5Cldots%2C+B%29
    equation?tex=Z_%7Bb%7D%28b%3D1%2C+%5Cldots%2C+B%29 上的最小二乘估计,其中
    equation?tex=U_%7Bj+n%7D 表示
    equation?tex=U_n 的第
    equation?tex=j 个分量。设
    equation?tex=%5Chat%7BA%7D 是第
    equation?tex=j 行是第
    equation?tex=j 个最小二乘估计的矩阵。
  • 通过
    equation?tex=%5Cwidehat%7BA%7D%5E%7B-1%7D+%5Cwidehat%7BV%7D%5Cleft%28%5Cwidehat%7BA%7D%5E%7B-1%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D 估计
    equation?tex=n%5E%7B1+%2F+2%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D-%5Ctheta_%7B0%7D%5Cright%29 的协方差矩阵。

在许多情况下,

equation?tex=A 是对称的,在这种情况下,可以得到一个更简单的重采样过程。如果Z的协方差矩阵为V^{−1},则(2.4)表示
equation?tex=%5Coperatorname%7BCov%7D%5Cleft%28n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Cwidetilde%7B%5Ctheta%7D%29+%5Cmid%5Cright.+data+%29%3DA+V%5E%7B-1%7D+A%5E%7B%5Cmathrm%7BT%7D%7D%2Bo_%7Bp%7D%281%29. 当
equation?tex=A 对称时,该协方差矩阵的逆等于
equation?tex=A%5E%7B-1%7D+V%5Cleft%28A%5E%7B-1%7D%5Cright%29%5E%7B%5Cmathrm%7BT%7D%7D 。因此,我们提出以下基于样本方差
equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Cwidetilde%7B%5Ctheta%7D%29 的重采样过程。

样本方差(SV)方法:

  • 生成
    equation?tex=%5Cwidetilde%7B%5Ctheta%7D%7Bb%7D+%5Cequiv+%5Cwidehat%7B%5Ctheta%7D%2Bn%5E%7B-1+%2F+2%7D+Z%7Bb%7D%28b%3D1%2C+%5Cldots%2C+B%29 ,其中
    equation?tex=Z_%7Bb%7D 是具有协方差矩阵
    equation?tex=%5Cwidehat%7BV%7D%5E%7B-1%7D 的零均值随机向量。
  • 计算
    equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%5Cleft%28%5Cwidetilde%7B%5Ctheta%7D_%7Bb%7D%5Cright%29%28b%3D1%2C+%5Cldots%2C+B%29 的样本协方差矩阵,用
    equation?tex=%5Cwidehat%7B%5CSigma%7D 表示。
  • 通过
    equation?tex=%5Cwidehat%7B%5CSigma%7D%5E%7B-1%7D 估计
    equation?tex=n%5E%7B1+%2F+2%7D%5Cleft%28%5Cwidehat%7B%5Ctheta%7D-%5Ctheta_%7B0%7D%5Cright%29 的协方差矩阵。

3 讨论

​与其他重采样方法不同,最小二乘(LS)和样本方差(SV)方法不需要求解估计方程。这是一个重要的优势,因为求解复杂的非光滑估计方程需要大量的计算。虽然Zeng and Lin(2008)已经建议了使用自助法估计

equation?tex=V 的可能性,但这个过程不同于不同于基于自助法的
equation?tex=%5Cwidehat%7B%5Ctheta%7D 的方差估计,不涉及求解方程。

如果(2.1)被更一般的扩展取代,上述的结果仍然成立

equation?tex=n%5E%7B-1+%2F+2%7D+U_%7Bn%7D%28%5Ctheta%29%3DG%2BA+n%5E%7B1+%2F+2%7D%5Cleft%28%5Ctheta-%5Ctheta_%7B0%7D%5Cright%29%2Bo_%7Bp%7D%5Cleft%281%2Bn%5E%7B1+%2F+2%7D%5Cleft%5C%7C%5Ctheta-%5Ctheta_%7B0%7D%5Cright%5C%7C%5Cright%29%2C

其中

equation?tex=G 为零均值随机向量,其协方差矩阵可被一致估计。因此,所提出的重采样方法可以应用于多变量响应、偏采样和时间序列数据等。事实上,
equation?tex=n%5E%7B1+%2F+2%7D 的收敛速度不是必须的。此外,他们的方法可以潜在地推广到半参数的情况,其中无穷维参数是
equation?tex=%5Ctheta 的一部分。

参考文献

[1] Cox D R , Oakes D . Analysis of survival data[M]. Chapman and Hall, 1984.

[2] Jin Z , Lin D Y , Wei L J , et al. Rank-based inference for the accelerated failure time model.[J]. Biometrika, 2003.

[3] Jin Z , Wei Z Y J . A simple resampling method by perturbing the minimand[J]. Biometrika, 2001, 88(2):381-390.

[4] Kalbfleisch J D , Prentice R L . The statistical analysis of failure time data /[M].

[5] Koenker R W , D'Orey V . Algorithm AS 229: Computing Regression Quantiles[J]. Applied Statistics, 1987, 36(3):383.

[6] Qin J . Biased Sampling, Over-identified Parameter Problems and Beyond[M]. 2017.

[7] Tsiatis, A. A. Estimating regression parameters using linear rank tests for censored data[J].The Annals of Statistics, 1990, 354-372.

[8] Van d V A W , Wellner J A . Weak convergence and empirical processes[M]. Springer, 1996.

[9] Ying, Z. A large sample study of rank estimation for censored regression data[J].The Annals of Statistics, 1993, 76-99.

[10] Yuan W Y . Combining least-squares and quantile regressions[J]. Journal of Statistical Planning and Inference, 2011.

[11] Zeng,D.L. and Lin, D.Y . Efficient resampling methods for nonsmooth estimating functions[J]. Biostatistics, 2008(2):355-363.

[12] Zhou, Y. Generalized estimation equation estimation method[M]. Science Press, 2013.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值