例题来自https://baike.baidu.com/item/贝叶斯定理/1185949?fr=aladdin
吸毒者检测
假设一个吸毒检测器的准确率为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位检测呈阳性的雇员吸毒的概率有多高?令 D 为雇员吸毒事件,~D 为雇员不吸毒事件,+为检测呈阳性事件。
分析:
根据贝叶斯定理的思路,在进行检测之前,即观察到新的样本之前,先有一个先验概率,即某个雇员吸毒的概率
P
(
D
)
=
0.005
P(D) = 0.005
P(D)=0.005,然后检测之后,即观察到新的样本数据之后,计算雇员吸毒的概率。观察到的新的样本数据有两种可能,一种是呈现阳性(+),一种是呈现阴性(-),我们现在要计算的是,如果观察到了阳性(+)样本,那么这个雇员吸毒的概率是多少,即计算
P
(
D
∣
+
)
P(D|+)
P(D∣+)的值。
这个过程如下所示:
先验概率 P ( D ) P(D) P(D) + 新的观察结果 => 后验概率 P ( D ∣ + ) P(D|+) P(D∣+)
根据贝叶斯公式,我们有
P
(
D
∣
+
)
=
P
(
+
∣
D
)
P
(
D
)
P
(
+
)
P(D|+) = \frac{P(+|D)P(D)}{P(+)}
P(D∣+)=P(+)P(+∣D)P(D)
其中
P
(
+
∣
D
)
P(+|D)
P(+∣D) 表示在雇员吸毒的情况下,检测为阳性的概率,在这里为 0.99。
P(+) 表示观察到阳性样本的概率,这是检测为阳性的全概率,由下面两部分组成:
第一部分是,雇员吸毒的情况下,检测为阳性的概率,即 P ( D ) P ( + ∣ D ) P(D)P(+|D) P(D)P(+∣D),
还有一部分是雇员没吸毒的情况下,检测为阳性的概率,即 P ( ∼ D ) P ( + ∣ ∼ D ) P(\sim D)P(+|\sim D) P(∼D)P(+∣∼D)
P ( + ) P(+) P(+)为两者之和,即 P ( + ) = P ( D ) P ( + ∣ D ) + P ( ∼ D ) P ( + ∣ ∼ D ) P(+) = P(D)P(+|D) + P(\sim D)P(+|\sim D) P(+)=P(D)P(+∣D)+P(∼D)P(+∣∼D)。
其中 P ( ∼ D ) = 1 − P ( D ) = 0.995 P(\sim D) = 1-P(D) = 0.995 P(∼D)=1−P(D)=0.995, P ( + ∣ ∼ D ) = 0.01 P(+|\sim D) =0.01 P(+∣∼D)=0.01
代入贝叶斯公式后可以得到:
P
(
D
∣
+
)
=
P
(
+
∣
D
)
P
(
D
)
P
(
+
)
=
P
(
+
∣
D
)
P
(
D
)
P
(
D
)
P
(
+
∣
D
)
+
P
(
∼
D
)
P
(
+
∣
∼
D
)
=
0.99
×
0.005
0.005
×
0.99
+
0.995
×
0.01
=
0.00495
0.00495
+
0.00995
=
0.3322
P(D|+) = \frac{P(+|D)P(D)}{P(+)}\\=\frac{P(+|D)P(D)}{P(D)P(+|D) + P(\sim D)P(+|\sim D)}\\=\frac{0.99 \times 0.005}{0.005 \times 0.99 + 0.995 \times 0.01}\\=\frac{0.00495}{0.00495+0.00995} = 0.3322
P(D∣+)=P(+)P(+∣D)P(D)=P(D)P(+∣D)+P(∼D)P(+∣∼D)P(+∣D)P(D)=0.005×0.99+0.995×0.010.99×0.005=0.00495+0.009950.00495=0.3322
这个结果表示,如果一个雇员的检测结果为阳性+,那么判断他吸毒的概率,从 0.005 提高到了 0.3322,需要进一步检测。
更进一步,我们计算另外三种情况的概率:
1、检测结果为阳性(+),但雇员实际不吸毒的概率
P
(
∼
D
∣
+
)
P(\sim D|+)
P(∼D∣+)
2、检测结果为阴性(-),但雇员实际吸毒的概率
P
(
D
∣
−
)
P(D|-)
P(D∣−)
3、检测结果为阴性(-),但雇员实际不吸毒的概率
P
(
∼
D
∣
−
)
P(\sim D|-)
P(∼D∣−)
计算结果如下所示:
+ | - | |
---|---|---|
D | 0.3322 | 0.00005 |
~D | 0.6678 | 0.9999 |
由上表可以看出,检测结果为阳性时,不吸毒的概率是吸毒概率的两倍。需要进一步检测,此时 P ( D ) = 0.3322 P(D) = 0.3322 P(D)=0.3322,进一步计算得到结果如下:
+ | - | |
---|---|---|
D | 0.9801 | 0.0050 |
~D | 0.0.1999 | 0.9950 |
如果进一步检测的结果为阳性(-),则有98.01%的把握判断该雇员吸毒,不过如果结果为阴性(-),还是有99.50%的把握可以判断该雇员没有吸毒。