不等概不放回抽样——霍维茨汤姆森估计量

最近,看论文看到有个东西,叫霍维茨汤姆森估计量(Horvitz-Thompson estimator)。

它是用于不等概不放回抽样的总体量估计用的,这个估计量是这样子的:

\hat Y=\sum _{i\in s}\frac{y_{i}}{\pi _{i}}

其中i \in s 表示当且仅当单元(有些文献也称为群)y_{i}被抽中在样本(样本大小为n)中,\pi _{i}y_{i}被抽中在样本中的概率,称为包含概率(inclusion probability)。

本文接下来主要讲解下这估计量是怎么来的。

 

不放回抽样的方式下,\pi _{i}表示单元(群)U_{i}被抽中到大小为n的样本中的概率,定义随机变量t_{i},其中i=1,2,\cdots N,如下

t_{i}=\begin{cases} 1, & U_{i}\in s\\ 0, & \text{ otherwise. } \end{cases}

这里我们很容易发现随机变量t_{i}是伯努利(0-1)分布的。

由于是不放回抽样,因此采样所得的n个样本相互是不同的,因此肯定有

\sum_{i=1}^{N}t_{i}=n

根据伯努利分布性质有:

E(t_{i})=\pi_{i}

我们构造一个样本值的一般线性函数:

T &=& \sum_{i=1}^{n}c_{i}y_{i},\qquad \text{ or }\\ T &=& \sum_{i=1}^{N}t_{i}c_{i}y_{i}

其中c_{i}是附属于单元U_{i}(只要它被选入样本)的常数,考虑到T的期望,我们得到,

E(T)= \sum_{i=1}^{N}\pi_{i}c_{i}y_{i}

为了是T称为总体量\sum_{i=1}^{N}y_{i}的无偏估计,常数c_{i}应当等于1/\pi_{i}

因此,正如霍维茨 - 汤普森所建议的那样,总体量的无偏估计由下式给出,

\hat{Y}_{HT} = \sum_{i=1}^{N}t_{i}\left(\dfrac{y_{i}}{\pi_{i}}\right)\qquad \text{ or }

\hat{Y}_{HT} = \sum_{i=1}^{n}\dfrac{y_{i}}{\pi_{i}}

这部分内容来自:

霍维茨汤姆森

(很多文献提到这估计量也适合于放回抽样。这里后续再有机会讨论这个问题。)

其他资料:

计算举例

 

 

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值