数据科学导论论文_数据陷阱:如何发现科学论文中的可疑之处

《拆穿胡扯》一书揭示了科学论文中常见的四种统计学误导:有缺陷的数据、数据删失、伪关联和坐标轴操纵。作者提醒读者对不符合常识的方法或结论保持怀疑,并注意数据可视化可能带来的误导。例如,错误的数据分析可能导致错误的关联性结论,坐标轴操纵可以制造虚假的相关性。
摘要由CSDN通过智能技术生成

017b7b5353b07eb62d875266009f0b02.png

原文作者:Gemma Conroy

统计学很容易被利用。注意以下四个危险信号。

牵强附会的关联性、歪曲的数据、坐标轴操纵是科学出版物和评论中几种最常见的把戏。

d67f24cc02c1023cb02c38440781d416.png
erhui1979/Getty

生物学家Carl Bergstrom和数据科学家Jevin West在他们的新书《拆穿胡扯:数据世界的怀疑艺术》(Calling Bullshit: The Art of Scepticism in a Data-Driven World)中,分享了如何识别科学论文、新闻报道、广告、社交媒体内容中误导人的统计方法。

“数字简直是传播胡扯的完美载体。”两位作者说,“它们看上去很客观,但很容易被人利用。”

以下是他们指出在科学论文中会用到的四种统计学花招:

1.有缺陷的数据

那些充斥着专业的术语、晦涩的技术、专门的设备的论文可能很难评估。与其尝试把这些元素理出个究竟,两位作者建议直接分析数据。

“你可以在不施用任何统计学诡计的情况下,从糟糕的数据中得到很傻的结果,”他们写道,“胡说八道通常就这样创造出来的。”

比如,在2016年的一篇arXiv预印本论文中,有计算机科学家声称一个新的机器学习算法仅凭面部特征就能预测犯罪率,且准确率近乎90%。

许多媒体都报道了这个新闻,但只要快速看一下用来“训练”这个算法的大头照,就会发现这个研究的设计和结论存在重大瑕疵。大部分罪犯在大头照中都眉头紧锁,而非罪犯都面带微笑,说明算法只是学会了区别面部表情而已。

“我们用不着细看这个机器学习的算法,因为问题不在那里,”两位作者写道,“通常情况下,你根本不需要机器学习的专业知识就能看出来它在胡扯。”

危险信号:无论一篇论文的技术性有多强,如果方法或结论不符合常识,它即可能有严重缺陷。

2.数据删失

数据删失(data censoring)是一种选择偏倚,指的是故意或无意将特定数据从最终分析中剔除,这可能会导致不准确和误导性的结果。

例如,2016年的一项关于音乐家预期寿命的研究得出结论:说唱和嘻哈艺术家比蓝调、爵士和乡村音乐艺术家更容易死得早。作者根据死于1940年到2014年期间的13195名音乐家的死亡记录,得出了以上结果。

934bc35d50ac56863d53eb7a37cdaa53.png
Kenny et al.

两位作者表示,论文作者没有将研究时期最后还活着的音乐家计算在内,使得结论不准确,因为这给了人这样一种印象,即从事新潮音乐类型(朋克、说唱和嘻哈)的艺术家比传统类型(蓝调和爵士)的艺术家更有可能在40岁前去世。

“并不是说唱明星更容易死得早;而是已经去世的说唱明星肯定死得早,因为说唱的历史太短,无法得出另一种结论。”他们说。

危险信号:如果遗漏了关键数据,研究的结论就可能是无效的。看数据集的时候,一定要关注它没有显示的东西,两位作者说。

3. 伪关联

如果研究人员进行数据疏浚(data dredging)——利用大型数据集发现可能的关联和模式,那么揭示的可能不是两个变量之间的真实关系,而是伪关联。

两位作者指出,这一点很值得注意,尤其是对于同时根据多个因素分析参与者的大规模研究,比如个性特质、外形特征、教育程度等。

尽管有些伪关联很有说服性,比如维生素D的水平和新冠肺炎感染之间的关系,其余的很多一看就说不通。

下图由《伪关联》(Spurious Correlations)一书的作者Tyler Vigen制作,图中显示了美国小姐的年纪和被蒸汽、热蒸汽、高温物体杀害人数之间的强相关性。

eab00b9f7dd86cc45ccfb6142ea052db.png
Tyler Vigen

尽管在图中看起来有关联,但其实这两个趋势并不相关。

危险信号:如果一项关联性研究没有控制其他能解释结果的因素,这两个变量之间的关系很有可能不是看上去的那样。

4. 坐标轴操纵

数据可视化是传播研究结果的有力工具,但只要对坐标轴的量度做一点小改动,它们也能带来误导性。

比如,2015年在《Law & Medicine》期刊上发表的一项研究利用一张线图表明麻腮风三联疫苗与自闭症有关——这个研究的真相早就被科学家揭穿。

73e7ac0fc5346a700bf2bcd2b1042bf7.png
Deisher et al.

乍看之下,两个趋势似乎密切相关,但这是因为两个轴的量度存在重大差异,而不是因为真的有这层关系。

自闭症发病率(左轴)的范围在0-0.6%之间,而麻腮风疫苗覆盖率(右轴)选取了86%-96%这个区间。事实是,自闭症发病率到2007年几乎翻了一倍,但麻腮风疫苗的覆盖率基本保持稳定。

“通过选择性地改变坐标轴之间的相对量度,设计者可以让数据只讲他们想讲的故事。”两位作者说。

危险信号:对待揭示出惊人或意外结果的可视化图形,我们要带着更多的怀疑精神。这些结果更容易在社交媒体上传播,因此一定要在你看到它们的时候指出问题所在。

原文以How to spot dubious claims in scientific papers为标题发表在2020年7月28日《自然指数》的新闻板块上

©Nature


版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。

© 2020 Springer Nature Limited. All Rights Reserved

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值