不等概不放回抽样——霍维茨汤姆森估计量

最新推荐文章于 2024-04-02 16:35:24 发布

皮皮君

最新推荐文章于 2024-04-02 16:35:24 发布

阅读量7.6k

点赞数 4

分类专栏：概率论文章标签：霍维茨汤姆森 Horvitz-Thompson estimator 抽样不等概

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16587307/article/details/96573610

版权

概率论专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了霍维茨-汤姆森估计量，这是一种用于不等概率不放回抽样中估计总体量的方法。该估计量通过考虑每个单元被抽中的概率来实现无偏估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近，看论文看到有个东西，叫霍维茨汤姆森估计量（Horvitz-Thompson estimator）。

它是用于不等概不放回抽样的总体量估计用的，这个估计量是这样子的：

$\hat Y=\sum _{i\in s}\frac{y_{i}}{\pi _{i}}$

其中 $i \in s$ 表示当且仅当单元(有些文献也称为群) $y_{i}$ 被抽中在样本(样本大小为 $n$ )中， $\pi _{i}$ 是 $y_{i}$ 被抽中在样本中的概率，称为包含概率(inclusion probability)。

本文接下来主要讲解下这估计量是怎么来的。

不放回抽样的方式下， $\pi _{i}$ 表示单元(群) $U_{i}$ 被抽中到大小为 $n$ 的样本中的概率，定义随机变量 $t_{i}$ ，其中 $i=1,2,\cdots N$ ，如下

$t_{i}=\begin{cases} 1, & U_{i}\in s\\ 0, & \text{ otherwise. } \end{cases}$

这里我们很容易发现随机变量 $t_{i}$ 是伯努利（0-1）分布的。

由于是不放回抽样，因此采样所得的 $n$ 个样本相互是不同的，因此肯定有

$\sum_{i=1}^{N}t_{i}=n$

根据伯努利分布性质有:

$E(t_{i})=\pi_{i}$

我们构造一个样本值的一般线性函数：

$T &=& \sum_{i=1}^{n}c_{i}y_{i},\qquad \text{ or }\\ T &=& \sum_{i=1}^{N}t_{i}c_{i}y_{i}$

其中 $c_{i}$ 是附属于单元 $U_{i}$ （只要它被选入样本）的常数，考虑到T的期望，我们得到，

$E(T)= \sum_{i=1}^{N}\pi_{i}c_{i}y_{i}$

为了是 $T$ 称为总体量 $\sum_{i=1}^{N}y_{i}$ 的无偏估计,常数 $c_{i}$ 应当等于 $1/\pi_{i}$ 。

因此，正如霍维茨 - 汤普森所建议的那样，总体量的无偏估计由下式给出，

$\hat{Y}_{HT} = \sum_{i=1}^{N}t_{i}\left(\dfrac{y_{i}}{\pi_{i}}\right)\qquad \text{ or }$

$\hat{Y}_{HT} = \sum_{i=1}^{n}\dfrac{y_{i}}{\pi_{i}}$

这部分内容来自：

霍维茨汤姆森

(很多文献提到这估计量也适合于放回抽样。这里后续再有机会讨论这个问题。)

其他资料：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

皮皮君 写作不易，多谢赏赐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。