统计数据、相关性与因果关系

本文探讨了统计数据与因果关系之间的复杂性,通过公鸡打鸣与太阳升起、吸烟与肺癌等例子说明相关性不等于因果关系。同时,文章提到了健康工人效应和Simpson悖论等统计学中的反常现象,强调了实验设计的随机性和中间变量的重要性。文章以药物实验为例,阐述了如何因忽视中间变量导致错误的因果推断,提醒我们在数据分析时需谨慎对待中间变量悖论。
摘要由CSDN通过智能技术生成

    在去年10月份的数学文化节期间,我去听了好几次讲座,其中有一些讲的相当精彩。时间过得好快,转眼间又是一年了,如果不是Wind牛发短信问我去不去听讲座,我估计今年数学文化节过了都还想不起这档子事。于是和Wind牛跑去二教309,听了一场叫做《从数据中挖掘因果关系》的讲座。这个题目是很有趣的:数据本身并不说谎,难就难在我们如何从中挖掘出正确的信息。当我们讨论数据时,我们讲的最多的是数据的相关性,而我们希望得到的则是事件之间的因果联系;但事实往往是复杂的,统计数据有相关性并不意味着两个事件具有因果联系,而具有因果联系的两件事从统计数据上看有时也并不相关。
    对于前者,最简单的例子就是公鸡打鸣与太阳升起:公鸡打鸣与太阳升起总是同时发生,但这并不表示把全世界所有的公鸡都杀光了后太阳就升不起来了。统计发现,手指头越黄的人,得肺癌的比例越大。但事实上,手指的颜色和得肺癌的几率之间显然没有直接的因果联系。那么为什么统计数据会显示出相关性呢?这是因为手指黄和肺癌都是由吸烟造成的,由此造成了这两者之间产生了虚假的相关性。我们还可以质疑:根据同样的道理,我们又如何能从统计数据中得出吸烟会致癌的结论呢?要想知道吸烟与癌症之间究竟是否有因果联系的话,方法很简单:找一群人随机分成两组,规定一组抽烟一组不抽烟,过它十几年再把这一拨人找回来,数一数看是不是抽烟的那一组人患肺癌的更多一些。这个实验方法本身是无可挑剔的,但它太不道德了,因此我们只能考虑用自然观察法:选择一些本来都不吸烟的健康人进行跟踪观察,然后呢,过段时间这一拨人里总会出现一些失意了堕落了犯上烟瘾

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值