噪声的误导效应:多重比较问题

如何避免被随机性所迷惑`
一家大型制药公司的CEO有一个问题。他的化学家们开发的用于增加意志力的新奇迹药物在每次试验中都失败了。这个CEO不敢相信这些结果,但是研究人员告诉他,没有证据表明药物对意志力有一定重要性的影响(p值为0.5)。相信药物必定在某种程度上面有作用,CEO有了一个绝妙的主意:不是仅针对一种影响去测试药物,同时在1000种不同的影响下进行测试,所有采用相同的P值。即使它没有增加意志力,它也必须做点什么,比如减少焦虑或提高记忆力。持怀疑态度,研究人员完全按照CEO的说法重新进行试验,监测1000种不同的药物受试者健康指标。研究人员带来了令人震惊的消息:药物对50个测量值产生了显著的影响!神奇吧? 实际上,如果他们发现这个实验分析没有显着影响,那就更令人惊讶了。
CEO的错误是多重比较问题的一个例子。这个问题归结为现实世界中数据的嘈杂。虽然噪声影响一个结果的可能性很小,但我们进行的测量越多,随机波动被错误分类为有意义结果的概率就越大。虽然这会影响进行客观研究的研究人员,但它也可用于恶意目的。
CEO有一种他想要出售的药物,但它没有做到它设计的目的。他没有承认失败,而是指示他的研究人员继续寻找,直到他们找到药物改善的一些重要信号。即使药物对任何健康标记物没有影响,研究人员最终也会发现由于数据中的随机噪声,它确实改进了一些量。出于这个原因,多重比较问题也被称为外观效应:如果研究人员没有找到他想要的结果,他可以继续寻找,直到找到一些有益的效果!
幸运的是,大多数统计学家和研究人员都是诚实的并且使用方法来解释多重比较问题。最常见的技术称为Bonferroni Correction,但在我们解释它之前,我们需要讨论p值。
p值表示在零假设为真的世界中的概率,测试统计量至少与测量值一样极端。在药物实例中,对于初始试验,在药物实例中,对于初始试验,零假设是药物不会增加个体的平均意志力。另一种假设,或者是研究者的信念,是药物会增加平均意志力。当p值是0.05时,这意味着在药物不会增加平均意志力的世界中,研究人员会测量到药物确实会因为随机噪音而增加5%的意志力。
在进行研究之前,研究人员选择p值(称为α或显著性水平)来建立统计学显著性。如果测量的p值低于阈值,则拒绝零假设并且结果具有统计显著性。较低的测量p值被认为是更好的,因为它表明结果不太可能偶然发生。
一旦我们知道p值代表什么,我们就可以发现CEO的错误。 他命令试验再次以相同的p值0.05运行,但他没有测试只有一种影响,而是想测试1000。如果进行1000次p值为0.05的假设检验,我们平均会发现由于随机噪声(1000的5%)会发现50个显著结果。一些结果实际上可能是有意义的,但根据这次学习将宣告他们出售的全部药物是不道德的。
下图说明了这个问题。 我从标准正态分布中生成了1000个随机数,并将它们绘制在相应的概率密度函数上。我们可以在这里忽略y轴并将焦点集中在x轴上,它是以z-score表示的。如果我们进行假设检验并假设我们的检验统计量(测量值)的均值来自正态分布,然后我们用z-score来计算我们的测试统计量。使用我们选择的p值(alpha)进行假设检验,我们可以找到统计显著性所需的z-score。p值为0.05的这些阈值显示为红色垂直线,在线外观察到的被认为是统计上显著的。黑点是无关紧要的随机生成的观察结果,而红点是“重要的”随机生成的数据点。
随机观察,p值为0.05
我们通过随机观察和使用未校正的p值可以看出,我们将这些结果分类为显著!如果我们有药物要卖,这可能是个好消息,但作为负责任的数据科学家,我们需要考虑进行多项测试,这样我们就不会受到噪音的误导。
Bonferroni Correction是对多重比较问题的一个简单修复。为了补偿许多假设检验,我们将p值用于单个比较并将其除以检验数。在药物公司试验的情况下,原始p值0.05应除以1000,得出新的显着性阈值为0.00005。这意味着结果必须更加极端才能被认为是重要的,从而降低了随机噪声被表征为有意义的概率。
我们可以将Bonferroni Correction应用于上面的图表,看看它如何影响随机点的分类。该图具有相同的结构,但现在重要性阈值考虑了多个测试。
在这里插入图片描述
现在没有随机数据点被认为是重要的了!有人批评Bonferroni Correction过于保守,可能导致我们拒绝一些实际上有意义的结果。 然而,该方法背后的重要概念是在进行多次比较时需要调整显著性值。
多重比较的问题不仅仅是假设检验。 如果我们比较足够多的数据集,我们可以找到仅仅是随机噪声的相关性。网站Spurious Correlations对此进行了幽默的说明,该网站提供了完全不相关的趋势,这些趋势恰好出现相互紧密相关。
在这里插入图ssss描述
在我们检查研究时要记住多重比较问题,但它也可以用于我们的日常生活中。如果我们仔细观察,我们可以在任何地方找到相关性,但这并不意味着我们应该因为它们而改变生活方式。也许我们每天都在称自己的体重,发现我们的体重与我们发送的短信数量呈负相关。 发送更多短信以期待减肥是愚蠢的。人类善于发现模式,当我们仔细观察并进行足够多的比较时,我们可以说服自己随机噪音存在的意义。 一旦我们意识到这种趋势,我们就准备好分析出可疑的主张并做出理性的选择。
摘自博客:https://towardsdatascience.com/the-multiple-comparisons-problem-e5573e8b9578

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值