内容预告
接着上节的介绍,我们将深入讨论著名的辛普森悖论 (Yule-Simpson’s Paradox) 1。进一步强调因果推断是超越相关性分析的。因为因果分析是一种纯客观分析 2,我们在做分析时使用的变量以及假设的因果关系 (哪个变量 cause 哪个变量) 是我们很少反思过就使用的。
本节将通过一个具体案例,揭示因果推断过程中不可忽视的主观因素。
肾结石疗法 3
1996年的一项研究报告提供了以下数据,比较了肾结石摘除手术的两种治疗方法的治疗成功率:
治疗成功概率 | 开腹手术 | 内窥镜手术 |
---|---|---|
小型肾结石 | 93% (81/87) | 87% (234/270) |
大型肾结石 | 73% (192/263) | 69% (55/80) |
总计 | 78% (273/350) | 83% (289/350) |
眼尖的同学很容易发现有趣的观测结论:
- 当考虑两种不同的肾结石类型时,开腹手术的成功率总是高于内窥镜手术;
- 但是,若不考虑肾结石类型(总计数据),内窥镜手术的整体成功率却高于开腹手术。
What?再检查一遍表格内所有的数值和成功率计算,都没毛病。What!!!
是的,你没有看错:同一份数据,因为数据分组方式不同,得出两个截然相反的结论。
再仔细观察一下表格,发现虽然总体上 (总计),两个手术方案的患者数量是一样。
但是更多的小型肾结石病人被安排到保守的内窥镜手术,而更多的大型肾结石病人被安排到激进的开腹手术。
原来,医生通常会基于患者的严重程度(肾结石大小)来推荐不同的手术方案。尽管开腹手术的成功率较高,但考虑到患者的身体状况和经济因素,对于不那么严重的病例可能会推荐内窥镜手术。
这种情况下,结石大小对手术方案会有影响,而结石大小对术后治愈也有影响。变量之间的因果关系如下图:
思考这个例子
现在想想,假如你是一个大型肾结石病人,医生安排了做了开腹手术,结果你手术完发现你肾结石并没有治好。你会怎么想?
可能有两种情况:
1.如果你了解并相信医生的因果假设(即结石大小影响手术选择和效果),你可能会理解并接受根据结石大小分组后的分析结果,相信医生已尽力,因为大型肾结石开腹手术成功率更高。
2.如果你不了解这些医学背景,或者你怀疑结石大小与手术效果无关 (如下图所示的因果关系),你可能会更愿意相信合并数据后的分析结果: 700 个病人,选择保守内窥镜手术治疗成功率 83%,选择开腹手术成功率 78%。
你可能会对治疗方案选择感动非常愤怒😡,质疑医生为什么不为你采取成功率更高的手术方法。
总结
辛普森悖论表明,即使统计数据是“客观”的,对数据的分析会涉及到主观的假设 (被验证的假设是知识),这一点很容易被忽视。特别是手里拿着各种锤子 (数学模型) 的数据分析师要注意,不要看到钉子 (数据) 就是一棒锤 (上模型)。
在本文的例子中,决定是否控制某些混杂变量可能会基于主观的理论假设或先验知识。这种选择直接影响了因果推断的结果。
不定期更新专业知识和有趣的东西,欢迎反馈、点赞、加星
您的鼓励和支持是我坚持创作的最大动力!ღ( ´・ᴗ・` )