《统计会犯错——如何避免数据分析中的统计陷阱》一导读


219689582767d28267df3c5a8006a506ca2890be

前 言

统计会犯错——如何避免数据分析中的统计陷阱


2b131df4c9e1b5ba13ba9039b3ba8625cc245c9a

在那本非常著名的统计读物《统计数字会撒谎》(How to lie with statistics)的最后一章中,作者哈弗(Darrell Huff)告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的,虽然不是毫无条件地相信,但是肯定比“媒体”或者“政府”公布的事实可靠的多。哈弗的整本书中充满了媒体和政府利用误导性的统计信息弄虚作假的例子,但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解,而非对付政治对手的子弹。

统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志,你就会被统计术语淹没:t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具,科学家们毫不怀疑欣然地接受了这些工具。

但是,不少科学家并没有接受过统计教育,在科学领域中许多本科课程中也不涉及任何统计训练。

自20世纪80年代以来,学者已经揭示了无数的统计谬论,以及出现在经过同行评议的科学文献中的错误,他们发现许多科学论文,大概有一半以上,都犯过这些错误。由于统计能力不足,使得许多研究无法找到他们想要找的东西;多重比较和对 p 值误读导致了许多错误的“正确结论”;灵活的数据分析使得我们很容易找到原本不存在的相关性;不恰当的模型选择可能会使结论产生偏倚。这些错误都被同行评议人员和期刊编辑们忽视了,造成这一结果是由于他们通常并没有经过专业的统计训练,而且很少有杂志会聘请统计人员来审核投送的文章,另外,大部分文章也没有给出充足的、能够被精确评估的统计细节。

这些问题并不涉及恶意欺骗,而是由统计教育不足而造成的—— 一些科学家甚至指出大多数发表的研究成果可能是错误的1,[1]。在顶级期刊中经常会出现一些要求对将要发表文章采用更高统计标准、更严格审查标准的评论文章和社论,但是只有很少的科学家们响应这一呼吁,而且杂志授权标准往往被忽视。由于这些建议通常散落在一些误导性的教科书和杂志的综述中,而且对于应用型科学家们来说统计研究文章很难理解,所以大多数科学家想要提高他们的统计知识并不是那么容易的。

现代研究中复杂的方法论意味着没有经过广泛统计训练的科学家也许不能完全领会他们研究领域内发表的一些文章。例如,在医学领域中接受过标准统计入门课的医生,其所具备的统计知识只能充分理解在《新英格兰医学杂志》上刊登的20%的学术论文2。大多数的医生甚至都不具备这些知识,很多医学人员并不是通过统计的必修课而是利用杂志社或者短期课程等方法非正式地学习统计 3。我们对这些医学人员进行“医疗中常用的统计方法”测验,结果仅有不足50%的人能够答对 4,这证明这些非正式的方法所包含的内容并不足以让医学人员真正学会统计知识。即使是经过研究训练的医学院的教员其得分也小于75%的正确率。

情况如此糟糕,即使是从事上述统计知识调查的作者也缺乏构建调查问券所需的统计知识——我刚才引述的数字是有误导性的,因为在上述对医疗人员进行的调查中包括一道定义 p 值的选择题,但是在这道题中却给出 4 个不正确的定义作为选项5。我们可以为这个作者找些借口,因为即使很多统计入门的课本中也没能正确地定义p值这一基本的统计概念。

当科学研究的设计者不注重对统计人员的雇佣时,他们可能会迷失在工作中,在不会得到答案的研究上花费数千美元。正如心理学家Paul Meehl所抱怨的那样。

我们野心勃勃的研究员——在逻辑科学的知识体系下的毫无畏惧并且满心喜悦的依赖于“精确”的现代统计假设检验,已经著作等身或被提升为教授。就他对心理学整体来说,他几乎什么贡献也没做——更直白地说,他是一个对多个领域均有所涉猎,却没有得出什么真正科学成果的多产科学家6。
对大多数的科学家来说,由于很多科学领域对p值的误解而指控他们不能孕育知识也许是不公平的。但是这些错误确实对现实世界有很大影响。医学临床试验指导我们的卫生保健方向,并且决定某些新强力处方药的安全性;犯罪学家评估不同的策略来减少犯罪和骚乱;流行病学家试图延缓新疾病的蔓延;营销人员和业务经理们试图找到销售产品的最好方式。这一切都归结到统计,但是统计知识却不能被正确使用。

任何人都曾抱怨过医生没有在你能够理解的范围内告诉你什么是好的或者什么是不好的。现在,我们对一些声称某些食物、饮食或运动可能会损害我们健康的新闻不屑一顾,因为几个月后的另一项研究可能会得到完全相反的结果。正如一位杰出的流行病学专家所说的那样:“我们正在变成社会所讨厌的那类人,人们不再重视我们,而一旦人们把我们当回事,我们可能会无意中做出弊大于利的事7。”我们的直觉是正确的:在一些科学领域,最初的结论可能与之后的相悖。过早发布令人兴奋的结论,往往比发布有充分证据支持且仔细核对过的结论有更大的压力。

尽管如此,我们不要过早地下结论。一些统计误差可能只是由于资金不足造成的。让我们看看20世纪70年代中期在美国发起的为了节省燃气和时间而允许司机在红灯时右转这一规则,证明这一规则不会造成更多交通事故的证据源于统计的错误。正如我们已经看到的那样,这一规则造成了很多的伤亡。影响交通安全研究人员得到正确结论的唯一因素是缺乏数据。如果他们有钱去收集更多的数据、进行更多的研究,有时间整理来自许多不同国家独立的研究结果,真相就会很明显。

正如Hanlon’s razor告诉我们的那样:“把一切归咎于恶意,是对无能的充分解释”,有些出版物是在“谎言,该死的谎言和统计”这一条目下的。制药行业似乎尤其偏爱那些忽视了不利因素(例如那些指责他们产品没有疗效的出版物)的证据[2];在随后的评论中,制药商们可能会很高兴地发现有12项研究表明他们的药物有效,而不去注意其他8个未发表的认为他们产品无效的研究。当然,这些持反对意见的结论即使被呈送,由同行评审的期刊可能也不会发表它们,杂志社对无趣结论的强烈偏见使得“它是无效”的这一类研究结果永远也不会被发表,其他研究者也永远不会看见它们。数据缺失以及出版偏见正在侵蚀着科学并且歪曲我们对重要问题的看法。

即使是正确处理的统计资料也可能是不可信的。统计技术和分析方法的过剩使得研究人员在分析数据时有很大的自由发挥空间,而且很容易“不断拷问数据直到它承认存在某些关系”。不断尝试你的统计软件中提供的几种不同的方法,直到其中某个可以产生有趣的结论,然后假装这就是你想要做的所有分析。当一篇文章发表的时候,如果没有超自然的力量我们不可能知道数据是经过怎样的“折磨”才得到这一结论的。

在研究中的“软”领域是指那些理论不定量、实验难以设计、方法不规范的领域,而额外的自由导致了明显的偏见8。美国的研究人员必须得到和发布有趣的结论,以推进他们的职业生涯;面对数量不多的学术职位的激烈竞争,科学家不允许花费数月或数年的时间来收集和分析数据却只得到一个统计学上不显著的结果。这一做法无关恶意,科学家们只是想得到相对于数据本身其他的更能够支持他们假设的、夸大其辞的结论。

在本书中我会介绍一些常见的或其他的错误。许多错误存在于公开发表的文献中,这也使我们对很多论文的结论产生怀疑。

近年来,很多人提倡统计改革,在解决这一问题的最好方法上自然也存在分歧。有些人坚持p值应该完全摒弃,我将会在下文中说明其经常造成的误解和混淆;有些人提倡基于置信区间的“新统计”;有些人建议我们应该把重点转向能够得到更多可解释结论的贝叶斯方法;还有些人认为现在所教授的统计学知识华而不实。虽然所有的观点都有其可取之处,但是我不打算在此书中讨论其中的任何一个。我所关注的重点在于目前实践科学中存在统计应用的问题。这些方法能够完美地回答他们设计的问题,但是这些问题并不是我们想要他们回答的,我们越早意识到这一点,就能越早知道如何去弥补它。

目 录

第1章 统计显著性简介
第2章 统计功效与低功效统计
第3章 伪重复:理智地选择数据
第4章 p值与基础概率谬误
第5章 统计显著性的误判
第6章 双重数据
第7章 连续性错误
第8章 模型误用
第9章 自由研究还是无意识偏向
第10章 统计显著性简介
第11章 数据背后的真相
第12章 我们能做些什么
参考文献

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值