最近,看论文看到有个东西,叫霍维茨汤姆森估计量(Horvitz-Thompson estimator)。
它是用于不等概不放回抽样的总体量估计用的,这个估计量是这样子的:
其中 表示当且仅当单元(有些文献也称为群)
被抽中在样本(样本大小为
)中,
是
被抽中在样本中的概率,称为包含概率(inclusion probability)。
本文接下来主要讲解下这估计量是怎么来的。
不放回抽样的方式下,表示单元(群)
被抽中到大小为
的样本中的概率,定义随机变量
,其中
,如下
这里我们很容易发现随机变量是伯努利(0-1)分布的。
由于是不放回抽样,因此采样所得的个样本相互是不同的,因此肯定有
根据伯努利分布性质有:
我们构造一个样本值的一般线性函数:
其中是附属于单元
(只要它被选入样本)的常数,考虑到T的期望,我们得到,
为了是称为总体量
的无偏估计,常数
应当等于
。
因此,正如霍维茨 - 汤普森所建议的那样,总体量的无偏估计由下式给出,
这部分内容来自:
(很多文献提到这估计量也适合于放回抽样。这里后续再有机会讨论这个问题。)
其他资料: