How to Simulate Better毕竟是打算反反复复看的,观感得友好一点,所以大面积的公式、定理统一集中放在这篇我写完肯定不会再看的2.0。
题图是当事人主页上的官方照官方照官方照(现在UNC的主页打不开,不过现在应该换了另一张很久了),真的不是不是不是表情包……
1 估计方程的一般理论
首先我们回顾一下估计方程的一般收敛性质,此处的表述和推导并不严格,旨在初步归纳估计方程估计的性质及其推导方法的套路,从而把握其特点。
假设估计函数
并假定
其中,
如果方程(1)存在解,那么求解方程(1)就可以得到参数
1.1 简单估计方程的构造
一个最为简单的例子。假设
两边取期望,则显然有
于是,可以得到
行吧,绕了一圈依旧得到了一个通常意义下的均值估计。但不要难受,Less is more. 别看均值估计很普通、很常见,但它肯定还够再玩个至少一千年的。
同样地,为了估计方差,注意到
因此,可以设计估计方程为
于是得到估计方程
(乘一个
从而得到
这也是通常意义下的方差估计。同时,在独立观测样本下,这两个估计也是正态假设下的极大似然估计——换而言之,正态假设下,极大似然估计是广义估计方程估计的一个特例。
1.2 ROC曲线
ROC曲线是生物统计和统计质量控制中广泛使用的函数,其定义如下:假设两样本
其中
一个简单粗暴的办法是对
但既然大主题是简要介绍一下估计方程估计,那么,这样一个估计自然也是可以通过估计方程来获得的嘛!(不然写了干嘛)
比如,记
对于给定的
对上式中
当然,这种方法已经不再是严格意义上的广义估计方程估计了,但一般也被称为估计方程估计,它仍然有许多与估计方程估计相似的性质。这类方法在半参数统计中也是常见的,其基本思想是:先应用估计方程给出一个合理的估计,而它可能依赖某些冗余参数,所以再用冗余参数的相合估计代入,便可得到感兴趣的估计方程估计。
可以证明,若两样本的观察分别是独立同分布的随机变量,且两样本间相互独立,该估计是相合的,也是渐近正态的。
1.3 辅助信息线性模型
考虑线性回归模型
其中,随机误差项
众所周知,只要满足一些条件,
此外,如果对误差项假设了参数分布,通常会带来模型误判。但是在很多情况下,由于误差项的值经常会有正有负,因此假设误差项无从一个对称分布似乎更为合理。因此,误差服从对称分布也是一个有用的信息。而即使误差分布不一定是对称的,只需要知道其某一个分位数,也同样可以给模型提供有用的辅助信息。对于参数估计,知道残差项关于
这些辅助信息通常很有价值,可以给参数估计与统计推断提供更多的有用信息。但如果我们采用通常的最小二乘法进行参数估计的话,则并没有利用到上述的辅助信息。若是能够在参数推断过程中,有效使用这些有价值的辅助信息的话,肯定能够大大改善估计的效率。
那么,如何利用这些辅助信息呢?实际上,这个问题就相当于把最小二乘估计和分位数回归有机结合到一起。
模型(2)中,参数
其中上面的方程组数与参数
该方程可以视为关于未知参数
将辅助信息考虑进来,便可以得到如下无偏估计函数
注意到,这个估计函数是
从直观上来说,信息越多,那么对参数的估计将会越准确。此时,使用通常的方法可能找不到
由
其中,上述无偏估计函数向量
综合以上信息,可以得到如下估计函数
显然,
1.4 渐近性质
以下给出一个简单情形下的渐近正态性表述,更复杂的情况情况参考《广义估计方程估计方法》第十章定理10.1-定理10.3.及该章附录。
定理1 在一些必要假设下,并设
其中,
注:本文的重点是介绍如何进行模拟,详细的假设条件与理论证明将留在后续文章中详细讨论。
通常,我们称估计方程估计
如果要对此进行模拟,就需要掌握如下几点:
- 找到合适的算法来求解方程(1),这在一般的软件都有子程序来求解。但需要搞清楚如何调用。
- 渐近方差公式中,因为其是三明治协方差阵,需要估计两部分:如何计算
和. 在很多时候,这并没有一个很好的表达式,直接代入法可能不起作用。
当代入法可用时,上述的三明治方差计算就容易得多。可以直接使用如下估计
这里因为
接下来将以一个非光滑函数的例子来介绍方差的具体算法。
2 非光滑估计函数的有效重抽样方法
针对由非光滑函数导出的参数估计量,Zeng和Lin(2008)提出了一种简单而通用的重抽样策略,来得到参数估计量的渐进方差。该方法适用于生物统计中的多种半参数和非参数问题,且不需要求解估计方程,只需要产生随机数和估计函数的计算,因此比现有的重抽样程序要快得多,更有效也更稳定。
2.1 问题描述
令
假设解
其中,
2.2 例子
举两个例子帮助更好的理解现在要计算的问题。
例子1:异方差分位数回归
当
来估计
来求出,其中,若
例子2:删失数据的秩回归
假设
其中,
来估计
解决这个离散方程并不是一件易事,特别是当
其中,
且
2.3 计算方法
通过
当
其中,
由 van der Vaart and Wellner(1996)中的引理3.6.15,假设上述显示的余数项在自助法样本中一致为
为了避免非参数密度估计,我们提出了有效的重采样程序来估计A,从而估计出
由于
因此,Zeng和Lin(2008)提出以下基于最小二乘的重采样过程。
最小二乘(LS)方法:
- 生成
的个实现,记为。
- 计算
。
- 当
时,计算在上的最小二乘估计,其中表示的第个分量。设是第行是第个最小二乘估计的矩阵。
- 通过
估计的协方差矩阵。
在许多情况下,
样本方差(SV)方法:
- 生成
,其中是具有协方差矩阵的零均值随机向量。
- 计算
的样本协方差矩阵,用表示。
- 通过
估计的协方差矩阵。
3 讨论
与其他重采样方法不同,最小二乘(LS)和样本方差(SV)方法不需要求解估计方程。这是一个重要的优势,因为求解复杂的非光滑估计方程需要大量的计算。虽然Zeng and Lin(2008)已经建议了使用自助法估计
如果(2.1)被更一般的扩展取代,上述的结果仍然成立
其中
参考文献
[1] Cox D R , Oakes D . Analysis of survival data[M]. Chapman and Hall, 1984.
[2] Jin Z , Lin D Y , Wei L J , et al. Rank-based inference for the accelerated failure time model.[J]. Biometrika, 2003.
[3] Jin Z , Wei Z Y J . A simple resampling method by perturbing the minimand[J]. Biometrika, 2001, 88(2):381-390.
[4] Kalbfleisch J D , Prentice R L . The statistical analysis of failure time data /[M].
[5] Koenker R W , D'Orey V . Algorithm AS 229: Computing Regression Quantiles[J]. Applied Statistics, 1987, 36(3):383.
[6] Qin J . Biased Sampling, Over-identified Parameter Problems and Beyond[M]. 2017.
[7] Tsiatis, A. A. Estimating regression parameters using linear rank tests for censored data[J].The Annals of Statistics, 1990, 354-372.
[8] Van d V A W , Wellner J A . Weak convergence and empirical processes[M]. Springer, 1996.
[9] Ying, Z. A large sample study of rank estimation for censored regression data[J].The Annals of Statistics, 1993, 76-99.
[10] Yuan W Y . Combining least-squares and quantile regressions[J]. Journal of Statistical Planning and Inference, 2011.
[11] Zeng,D.L. and Lin, D.Y . Efficient resampling methods for nonsmooth estimating functions[J]. Biostatistics, 2008(2):355-363.
[12] Zhou, Y. Generalized estimation equation estimation method[M]. Science Press, 2013.