辛普森悖论
介绍
观察下面 表格:
Treatment A | Treatment B | |
---|---|---|
Small stones | Group 1 93% (81/87) | Group 2 87% (234/270) |
Large stones | Group 3 73% (192/263) | Group 4 69% (55/80) |
Both | 78% (273/350) | 83% (289/350) |
分析:
治疗方法A在小、大肾结石分类下都比B的康复率高;但是结合在一起观察,B的康复率比A高;
辛普森悖论:在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
分析
1,辛普森悖论成立时,通常是忽略了因果关系(causal relation)
;
影响康复率的根本因素是病情严重,而不是治疗方法;
2,分组后观察数据更加清晰;
分组后,组之间的规模大小size差距悬殊,这导致各组权重
应该是不同的。
案例中,在轻症患者分类下,方法B虽然处于弱势,但是弱的程度并不大,且B的规模比方法A大,这导致了方法B综合比A强;
从数据综合来看:方法A适用重症,B适用轻症;
数学原理
\[ \left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]
图像表示
B1优于L1且B2优于L2,但是B1+B2弱于L1+L2;
基本比率谬误
介绍
人群中,患某种癌症的比例是a=1%;做癌症试验反应,阳性阴性确诊的概率是b=90%;(可能误诊)
现在某人反应为阳性,得癌症的概率是?
数学原理
\[ P(癌症|阳性)=\frac{ab}{ab+(1-a)(1-b)}=8.3\% \]
因为分母中存在\((1-a)(1-b)\)进行分担,也就是正常人比率*误诊率都挺高的情况下,假阳性的概率非常高
;