在统计学理论的估计中,用不放回抽样来估计离散型均匀分布最大值问题在英语世界中是著名的德国坦克问题(German tank problem),它因在第二次世界大战中用于估计德国坦克数量而得名。本文将从频率以及贝叶斯的角度探索坦克问题。
背景
假设所有的德国坦克是从1开始按自然数递增编号的,坦克的总数为N,也就是说坦克的最大编号为N。盟军在战斗中共随机俘获/击毁了k辆坦克,且这些坦克的最大编号为m,那么应当如何对N的大小进行估计?
盟军利用统计理论做的的估计取得了很棒的结果,与德军真实数据非常接近,如下表所示:
月份 | 统计估计 | 情报估计 | 德国记录 |
---|---|---|---|
1940-06 | 169 | 1000 | 122 |
1941-06 | 244 | 1550 | 271 |
1942-08 | 327 | 1550 | 342 |
上面的问题,转化为数学问题是:用不放回抽样
来估计离散型均匀分布
的最大值
。
已知样本数量k
和样本最大值m
,求群体最大值N
。
频率解释
推导
定义样本最大值随机变量M,那么
PM(m)=(m−1k−1)(Nk)
。
M的期望为:
EM(m)=μM=∑Nm=km∗(m−1k−1)(Nk)=k(N+1)k+1
因此,
N=μM(1+k−1)−1
,问题转化为了求
μM
。 因为实验只进行了一次(实际上也无法进行多次),因此以单词实验的值作为
μM
的估计值,即
μM=m
。所以有:
直观理解
直观理解如上,群体最大值的估计值等于样本最大值加上样本观测值之间的平均距离。
置信区间
假定抽样后放回以简化计算,记k次抽样都集中在分位数p内,那么该k次抽样出现的的概率为
p=qk
。
设两个概率
p1,p2
,那么其对应的分位数为
[p11/k,p21/k]
,其对应样本的抽样区间的最大值为
[N∗p11/k,N∗p21/k]
。
那么,已知样本最大值m,估计群体最大值的置信区间为
[m/p21/k,m/p11/k]
。
例如,k=5,p1=2.5%,p2=97.5%。那么置信区间大约为 [1.005m,2.09m] 。
更一般地,若选择95%置信区间 [m,m/0.051/k] ,对于一系列的k,可得下表:
k | 点估计值 | 置信区间 |
---|---|---|
1 | 2m | [m,20m] |
2 | 1.5m | [m,4.5m] |
5 | 1.2m | [m,1.82m] |
10 | 1.1m | [m,1.35m] |
20 | 1.05m | [m,1.16m] |
贝叶斯解释
贝叶斯法,在给定m,k的情况下使用贝叶斯公式计算N的概率分布,然后再求期望和方差。
对于 P(n|k) ,表示的是在收集到k量坦克信息(仅知道收集了k辆坦克而不知其数字)的条件下对群体数n的先验估计。假定其为某种离散均匀分布:
所以,上式可化简为:
这样便根据m,k的信息求出了n的后验概率分布。一些信息如下:
- 当k ≥ 1时,敌方坦克数量分布的众数为m。
- 当k ≥ 3时, N的均值有限: (m−1)(k−1)(k−2)
- 当k ≥ 4时, N的标准差有限: (m−1)(k−1)(m+1−k)(k−2)2(k−3)−−−−−−−−−−−−−√