三个 概率问题( 三门问题、检查悖论、辛普森悖论)介绍及视频
三门问题(Monty Hall problem)亦称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,大致出自美国的电视游戏节目Let's Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率。
正确答案是不换门的话,赢得汽车的几率是1/3。换门的话,赢得汽车的几率是2/3。
主持人开门排除了一个错误选项,导致概率重新分配(条件概率变化)。
问题解析可参见 “玛丽莲问题”(也称为三扇门问题、蒙提霍尔问题)问题解析(概率)-CSDN博客
检查悖论(Inspection Paradox)
某公司发明了一种检测试纸,这种试纸的检测疾病的准确率高达98%,测试结果为阳性。现在,他患病的可能性有多大?
注意,P(患病|检验阳性)≠ P(检验阳性|患病)),而应该结合疾病的发病率(先验概率),获得一个综合诊断。即使是准确率很高的检测,被测试的疾病在人群中发病率较低的情况下,阳性结果的预测价值也可能不高。阳性预测值不仅和试纸的准确性相关,也跟疾病的发病率相关。
这是贝叶斯定理的应用问题。要正确回答这个问题,我们需要更多的信息,疾病在总人群中的患病率(假设0.3%),没有这个信息,我们无法准确计算出患病的概率。当知道这个疾病在总人群中的患病率后,可以用贝叶斯定理计算。实际患病的概率出乎一般人的意料。
让我们用贝叶斯定理来计算具体患病概率:
已知条件:
试纸准确率98%(敏感性和特异性都是98%)
人群患病率0.3%
测试结果为阳性
计算步骤:
P(患病|阳性) = P(阳性|患病) × P(患病) / P(阳性)
其中:
P(阳性|患病) = 98%
P(患病) = 0.3%
P(阳性) = P(阳性|患病)×P(患病) + P(阳性|健康)×P(健康)
= 98%×0.3% + 2%×99.7%
= 0.294% + 1.994%
= 2.288%
最终结果:
P(患病|阳性) = 98% × 0.3% / 2.288% ≈ 12.8%
不能仅凭检测结果判断,而需要结合先验信息进行推算,即使测试的准确率很高,但由于疾病在总体人群中的患病率较低,阳性结果也有较大的概率是误报。这就是所谓的悖论效应,在统计学中,低患病率会导致较高的假阳性比例。
辛普森悖论(Simpson's Paradox)
在数据分析中,有时候当把数据分组来看时,一个趋势可能会完全反转。数据分布中的差异,如样本大小或混杂因素,可以导致这种现象。假设有两个医院,按理说大医院比小医院治疗效果好,但却为何出现大医院的总的治疗成功率可能小于小医院的情况?
表面上看小医院总体成功率更高,但实际上这可能是由于病例构成差异造成的,而不是真实的治疗水平差异。关键在于病人构成比例不同,大医院接收更多重症病人,小医院主要处理轻症病人。
假设有两家医院的治疗数据(简化情况):
大医院:
轻症病人:90/100 = 90%成功率
重症病人:80/100 = 80%成功率
总体:170/200 = 85%成功率
小医院:
轻症病人:45/50 = 90%成功率
重症病人:8/10 = 80%成功率
总体:53/60 = 88.3%成功率
要特别注意存在隐性筛选数据情况导致偏差。
详细解析可参见视频讲解
【漫士沉思录的作品】【漫士】为什么概率悖论这么反直觉?
三个( 三门问题、检查悖论、辛普森悖论) 概率问题-CSDN直播
或
https://www.douyin.com/video/7435497196734172431
OK!