1 问题描述
在全员核酸筛查中,为减少检验次数,通常采用分组检测的办法,将一组人的样本混合在一起化验。当某组的混合样本呈阳性时,则可判定该组至少有一人样本为阳性。于是,有三个问题需要解决:
问题(一): 假如对样本进行第一次分组检测后,再对混合样本呈阳性的小组进行全员检测,则当给定样本为阳性的先验概率
p
p
p时,应如何分组,可使平均总检验次数与不分组的情况相比更少?
问题(二): 当
p
p
p多大时不应分组检验?
问题(三) :假如第一次分组检测后,再对混合样本呈阳性的小组人员进行二次分组检测,则当给定
p
p
p时,这两次分组应该怎么分,可使平均总检验次数最小?
2 问题(一)分析与建模
(1) 符号定义与问题分析
n
n
n: 待查人员总数
k
k
k: 每组
k
k
k人
x
x
x: 将总人数
n
n
n分成
x
x
x组,
x
=
n
k
x=\frac{n} {k}
x=kn
p
p
p: 样本为阳性的先验概率
q
q
q: 样本为阴性的先验概率,
q
=
1
−
p
q=1-p
q=1−p
问题分析:
不论怎么分组,首先必须对每组的混合样本检测一次,也就是先检测
x
x
x次。如果混合样本为阳性,还需对小组成员再逐一检测一次。
小组检测中,至少一个样本呈阳性的概率为:
1
−
q
k
1-q^{k}
1−qk,也就是说平均有
[
(
1
−
q
k
)
⋅
x
]
[(1-q^{k})\cdot x]
[(1−qk)⋅x]个阳性小组。那么检测总次数
N
=
x
+
(
1
−
q
k
)
⋅
x
⋅
k
N=x+(1-q^{k})\cdot x \cdot k
N=x+(1−qk)⋅x⋅k.
(2) 建立模型
根据上述分析,现用
E
(
k
)
E(k)
E(k)表示单人阳性概率为
p
p
p,
k
k
k人一组时的人均检测次数,
E
(
k
)
=
N
n
=
x
+
(
1
−
q
k
)
⋅
x
⋅
k
n
=
1
k
+
1
−
q
k
E(k)=\frac{N}{n}=\frac{x+(1-q^{k})\cdot x \cdot k}{n}=\frac{1}{k}+1-q^{k}
E(k)=nN=nx+(1−qk)⋅x⋅k=k1+1−qk
将
q
=
1
−
p
q=1-p
q=1−p代入上式得,
E
(
k
)
=
1
k
+
1
−
(
1
−
p
)
k
(
1
)
E(k)=\frac{1}{k}+1-(1-p)^{k} \space \space (1)
E(k)=k1+1−(1−p)k (1)
现在问题转化为,给定
p
p
p,求
k
k
k,使得
E
(
k
)
E(k)
E(k)最小。
(3) 问题求解
当
p
p
p很小时,
(
1
−
p
)
k
≈
1
−
k
p
(1-p)^k\approx 1-kp
(1−p)k≈1−kp,代入公式(1)可得,
E
(
k
)
=
1
k
+
k
p
(
2
)
E(k)=\frac{1}{k}+kp \space \space (2)
E(k)=k1+kp (2)
容易求得函数E(k)的极小值点为
k
=
p
−
1
2
k=p^{-\frac{1}{2}}
k=p−21. 由于
k
k
k应为整数,所以取
k
=
[
p
−
1
2
]
k=[p^{-\frac{1}{2}}]
k=[p−21]和
k
=
[
p
−
1
2
]
+
1
k=[p^{-\frac{1}{2}}]+1
k=[p−21]+1,代入公式(2),比较
E
(
k
)
E(k)
E(k)的值,取较优的
k
k
k.
现取
p
=
0.0001
,
0.001
,
0.01
,
0.02
,
0.05
p=0.0001, 0.001, 0.01, 0.02, 0.05
p=0.0001,0.001,0.01,0.02,0.05,求得较优的
k
k
k和较小的
E
(
k
)
E(k)
E(k),见表-1.
p | 0.0001 | 0.001 | 0.01 | 0.02 | 0.05 |
---|---|---|---|---|---|
k | 100 | 32 | 10 | 8 | 5 |
E(k) | 0.020 | 0.063 | 0.196 | 0.274 | 0.426 |
3 问题(二)分析与证明
(1) 分析
显然,当人均检测次数大于1时,不应分组,即,当
E
(
k
)
>
1
E(k)>1
E(k)>1时不应分组。也就是
E
(
k
)
=
1
k
+
1
−
(
1
−
p
)
k
>
1
(
3
)
E(k)=\frac{1}{k}+1-(1-p)^{k}>1 \space \space(3)
E(k)=k1+1−(1−p)k>1 (3)
时,不应该分组。
(2) 求解
由不等式(3)解得
p
>
1
−
k
−
1
k
p>1-k^{-\frac{1}{k}}
p>1−k−k1.
观察表-1可知,随着阳性概率
p
p
p增大,要使
E
(
k
)
E(k)
E(k)取得最小值,小组人数
k
k
k随之减小。为了得到较大的
p
p
p,我们从
k
=
2
k=2
k=2,
k
=
3
k=3
k=3开始试. 求得
p
p
p后,再验证
p
p
p是否为可分组的最大阳性概率。经计算,
当
k
=
2
k=2
k=2时,
p
≈
0.293
p\approx 0.293
p≈0.293
当
k
=
3
k=3
k=3时,
p
≈
0.307
p\approx 0.307
p≈0.307
从计算结果看,似乎与表-1反应的规律有些矛盾。不是说
k
k
k越小时,
p
p
p就越大吗,怎么反过来了。这里需要注意,
k
k
k越小时,
p
p
p越大是指,满足
E
(
k
)
E(k)
E(k)取得最小值的
k
k
k越小,
p
p
p就越大。
现在我们来验证,当
p
=
0.293
p=0.293
p=0.293时,满足
E
(
k
)
E(k)
E(k)取得最小值的
k
k
k是否为2.
将
k
=
2
k=2
k=2,
k
=
3
k=3
k=3,
k
=
4
k=4
k=4,
p
=
0.293
p=0.293
p=0.293代入公式(3),得
E
(
2
)
=
1
+
1
2
−
(
1
−
0.293
)
2
≈
1.0001
E(2)=1+\frac{1}{2}-(1-0.293)^{2} \approx 1.0001
E(2)=1+21−(1−0.293)2≈1.0001
E
(
3
)
=
1
+
1
3
−
(
1
−
0.293
)
3
≈
0.9799
E(3)=1+\frac{1}{3}-(1-0.293)^{3} \approx0.9799
E(3)=1+31−(1−0.293)3≈0.9799
E
(
4
)
=
1
+
1
4
−
(
1
−
0.293
)
4
≈
1.0001
E(4)=1+\frac{1}{4}-(1-0.293)^{4} \approx1.0001
E(4)=1+41−(1−0.293)4≈1.0001
从计算结果可知,当
k
=
3
k=3
k=3,
p
=
0.293
p=0.293
p=0.293时,
E
(
k
)
<
1
E(k)<1
E(k)<1,所以
p
=
0.293
p=0.293
p=0.293不是不可分组的最大阳性概率.
(3) 验证 p = 0.307 p=0.307 p=0.307是可分组的最大阳性概率
用反证法
假设
∃
ε
∈
(
0.307
,
1
)
\exists \varepsilon \in(0.307,1)
∃ε∈(0.307,1),
k
∈
[
2
,
+
∞
)
k\in [2,+\infty)
k∈[2,+∞),使得
E
(
k
)
<
1
E(k)<1
E(k)<1,即下面不等式成立,
1
+
1
k
−
(
1
−
ε
)
k
<
1
(
4
)
1+\frac{1}{k}-(1-\varepsilon)^{k} <1 \space \space\space\space(4)
1+k1−(1−ε)k<1 (4)
化简后得,
ε
<
1
−
k
−
1
k
(
5
)
\varepsilon<1-k^{-\frac{1}{k}} \space \space\space\space (5)
ε<1−k−k1 (5)
令
y
=
k
−
1
k
y=k^{-\frac{1}{k}}
y=k−k1,求
y
y
y的极值点。
d
y
d
k
=
e
−
1
k
l
n
k
⋅
1
k
2
⋅
(
l
n
k
−
1
)
\frac{dy}{dk}=e^{-\frac{1}{k}lnk} \cdot \frac{1}{k^{2}} \cdot(lnk-1)
dkdy=e−k1lnk⋅k21⋅(lnk−1)
令
d
y
d
k
=
0
,
\frac{dy}{dk}=0,
dkdy=0,求得函数
y
y
y的极小值点
k
=
e
k=e
k=e,极小值
y
=
0.693
y=0.693
y=0.693. 也就是函数
z
(
k
)
=
1
−
k
−
1
k
z(k)=1-k^{-\frac{1}{k}}
z(k)=1−k−k1的极大值为
z
=
(
1
−
0.693
)
=
0.307
z=(1-0.693)=0.307
z=(1−0.693)=0.307,因此得,当
ε
∈
(
0.307
,
1
)
\varepsilon \in(0.307,1)
ε∈(0.307,1),
k
∈
[
2
,
+
∞
)
k\in [2,+\infty)
k∈[2,+∞)时,
ε
<
1
−
k
−
1
k
\varepsilon <1-k^{-\frac{1}{k}}
ε<1−k−k1。结论与原假设矛盾,所以当
p
>
0.307
p>0.307
p>0.307时不应分组。
4 问题(三)分析与建模
(1) 符号定义与问题分析
n
n
n: 待查人员总数
k
k
k:第一次分组的小组人数
x
x
x:第一次分组的分组总数,
x
=
n
k
x=\frac{n} {k}
x=kn
m
m
m:第二次分组的小组人数
y
y
y:将第一次检测呈阳性的小组再分
y
y
y小组,
y
=
k
/
m
y=k/m
y=k/m
p
p
p: 样本为阳性的先验概率
q
q
q::样本为阴性的先验概率,
q
=
1
−
p
q=1-p
q=1−p
p
1
p_{1}
p1:第一次检测,小组呈阳性的概率,
p
1
p_{1}
p1=1-
q
k
q^{k}
qk
p
2
p_{2}
p2:第二次检测,小组呈阳性的概率。为简化问题,这里将第一次检验呈阳性小组全部组合在一起,然后再重新分组,因此,
p
2
p_{2}
p2=1-
q
m
q^{m}
qm
分析:
第一次检验呈阳性组的平均值为
x
p
1
xp_{1}
xp1,将
x
p
1
xp_{1}
xp1个小组组合起来再进行第二次分组,得到
x
p
1
⋅
y
xp_{1} \cdot y
xp1⋅y个小组。所以,第二次检验阳性组的平均值为
x
p
1
⋅
y
⋅
p
2
xp_{1} \cdot y \cdot p_{2}
xp1⋅y⋅p2。
所以平均总检验次数为:第一次分组的检验次数,加上第二次分组的检验次数,再加上对所有阳性组成员进行检验的次数,即,
N
=
x
+
x
p
1
⋅
y
+
x
p
1
⋅
y
⋅
p
2
⋅
m
N=x+xp_{1} \cdot y+xp_{1} \cdot y \cdot p_{2} \cdot m
N=x+xp1⋅y+xp1⋅y⋅p2⋅m.
(2) 建立模型
用
E
(
k
,
m
)
E(k,m)
E(k,m)表示单人平均检验次数,即,
E
(
k
,
m
)
=
N
n
E(k,m)=\frac{N}{n}
E(k,m)=nN,则有,
(3) 问题求解
现在问题转化为给定
p
p
p,求
k
k
k,
m
m
m使
E
(
k
,
m
)
E(k,m)
E(k,m)最小。
p
p
p很小时,
(
1
−
p
)
k
≈
1
−
k
p
(1-p)^{k} \approx1-kp
(1−p)k≈1−kp,代入公式(6)得,
E
(
k
,
m
)
≈
1
k
+
k
p
m
+
k
m
p
2
(
7
)
E(k,m)\approx \frac{1}{k}+\frac{kp}{m} +kmp^{2} \space \space(7)
E(k,m)≈k1+mkp+kmp2 (7)
令
z
=
1
k
+
k
p
m
+
k
m
p
2
z=\frac{1}{k}+\frac{kp}{m} +kmp^{2}
z=k1+mkp+kmp2,求
z
z
z关于自变量
k
,
m
k,m
k,m的二元函数的最小值点,得
k
=
1
2
p
−
3
4
,
m
=
p
−
1
2
(
8
)
k=\frac{1}{\sqrt{2}} p^{-\frac{3}4{}}, m=p^{-\frac{1}{2}} \space \space (8)
k=21p−43,m=p−21 (8)
根据题目要求,
k
,
m
,
k
/
m
k, m, k/m
k,m,k/m均为整数。将
p
=
0.0001
,
0.001
,
0.01
,
0.02
,
0.05
p=0.0001, 0.001, 0.01, 0.02, 0.05
p=0.0001,0.001,0.01,0.02,0.05代入公式(7)、公式(8),并比较
E
(
k
,
m
)
E(k,m)
E(k,m),得到
k
,
m
k,m
k,m的最优值,见表-2.
p | 0.0001 | 0.001 | 0.01 | 0.02 | 0.05 |
---|---|---|---|---|---|
k | 700 | 124 | 24 | 16 | 8 |
m | 100 | 31 | 12 | 8 | 4 |
E(k,m) | 0.0028 | 0.0159 | 0.0905 | 0.1537 | 0.3050 |
由表-2可知,与表-1比较可知,采用两次分组办法的效果比一次分组办法的效果更好。