功能性磁共振成像危机:专家们分析了相同的大脑数据,结果却大相径庭


全文共3328字,预计学习时长9分钟

图源:unsplash

在旁人看来,功能性磁共振成像研究似乎是经历了从一场公共危机再到另一场公共危机:从检测死鲑鱼的大脑活动,到大脑活动与行为之间可能没有很高的相关性,到发现功能性磁共振成像分析软件中存在严重缺陷,导致了据称成千上万篇论文(部分)是错误的,再到只需更改标准分析流程中的参数,即可从同一组功能性磁共振成像扫描中发现截然不同的活跃脑区域。

 

现在,《自然》杂志上的一篇论文表明,一大批专家都在研究相同的大脑成像数据,但他们从这些数据中得出的结论几乎没有什么相同之处。

 

隔岸观火的其他科学领域看得心惊肉跳,感叹“还好不是我们!”然而,其间千丝万缕的联系是躲不开的,这是对所有神经科学以及其他科学领域的警告。

 

《自然》杂志的研究小组提出了一个简单的挑战:他们要求几支志愿者团队对执行决策任务的108个人进行相同的功能性磁共振成像扫描,并在任务期间使用这些研究来检验关于大脑活动在运动过程中如何变化的九种假设。

 

他们的目的仅仅是测试有多少团队认为哪些假设有重要依据,哪些没有。于是,神经影像分析复制研究(NARPS)诞生了。

 

任务很简单,减少了分析的复杂性。躺在扫描仪中,受试者会看到硬币翻转的两种潜在结果:如果是正面,你会损失$ X美元;如果是背面,你将赢得$ Y美元。受试者决定是接受还是拒绝这种打赌;接受它,(虚拟)硬币被翻转,奖金也将相应调整。

 

图源:unsplash

很巧妙的一点是,在每次尝试中,输赢金额之间的差异会有所不同,从而测试受试者对输钱的承受能力。而且,如果受试者像大多数人一样对失败反应强烈,就只会有规律地接受这种打赌,那么他的获利至少是失败的两倍。

 

从这一简单的任务中产生了九种同样简单的假设。其中八种是关于对胜利或失败作出反应时,大脑广泛区域的活动应如何上升或下降的;一种是比较赢或输时大脑区域内的变化,还有大脑中相当大的区域——前额皮质,整个纹状体和整个杏仁核的很大一部分。

 

简单的任务、简单的假设、和不可思议的大块大脑——容易获得相同的答案,对吗?现实却不是这样。 

 

七十支团队加紧对数据进行了检验并验证了九种假设。在九个假设中,只有一个(假设5)被超过80%的队伍报告为显着。有三个假设只被5%的团队报告为具有重要意义,这与我们使用经典统计数据偶然得出的数字差不多,因此可以合理地解释为这些假设不成立。

 

这种结果使五个假设处于不确定状态,其中20%至35%的团队报告了每个假设的重大影响。九个假设:一个被认为是正确的;三个被否定;五个处于不确定状态。对于研究相同数据的70个团队而言,这并不是一个很好的计分卡。

 

更糟糕的是,对每个假设将有多少团队支持的预测。无论是由团队本身做出的决定,还是由一群不参与的专家做出的预测,都过于乐观。仅约25%的团队支持了最严重的违规假设(假设2),但其预测的支持率约为75%。因此,团队不仅没有对真实的结果达成共识,而且也无法预测真实的事情和不正确的事情。

 

或许团队使用的分析管道中有什么导致了哪些假设得到支持,而哪些假设没有支持的巨大分歧呢?NARPS小组之间几乎没有发现系统上的差异。

 

一个可检测到的结果是,研究团队制作大脑图的平滑程度——通过平均接近的大脑片段得到的平滑效果越多,团队就越有可能找到有关假设的重要证据。但是,这种平滑效果仅占结果差异的大约4%,此外还有96%的不确定性。

 

图源:unsplash

不管团队之间有什么不同,它都是在每个团队建立其大脑活动的初始统计图之后的阶段,每个大脑的微小立方体(每个体素)的图都通过了某种重要的检验。这些初始的大脑活动统计图的相关性很好。因此,NARPS的人对所有人群的这些图像达成了共识,并明确支持其中四个假设(第2、4、5和6号假设)。

 

要为每个功能性磁共振成像研究提供可靠的答案,我们需要做的就是让70个团队根据相同的数据创建图像,然后将它们合并在一起以找到答案。让我们一起看看科学资助者是如何支持这个想法的。

 

抛开讽刺不说,这并不是答案,因为该共识图的结果与团队的实际结果不一致。研究小组发现假设1和3与2、4和5的重要性相同,但假设1和3没有得到共识图有力的支持。团队的投票为他们的图像共识提供了不同的答案。那么到底该支持哪些假设呢?到最后,我们仍然没有做出一个明智的选择。

 

一些人对功能性磁共振成像出现的问题感到幸灾乐祸,并借NARPS论文来抨击功能性磁共振成像研究,这种做法是愚蠢的。

 

功能性磁共振成像的某些危机比实质问题更容易被炒作。在死去鲑鱼的大脑中发现活动,并不是要表明功能性磁共振成像已损坏,而是一种教学工具,这是一个示例:假设如果由于某种原因,在分析功能性磁共振成像数据时,没有对噪声进行必要的校正,这可能会出问题。

 

这些校正正是精确地内置在神经成像分析管道中的,从而无法在死动物中发现大脑活动,也不会在颅骨之外发现大脑活动。那些非常高的“伏都教”关联来自于两次浸入:首先选择最活跃的体素,然后仅将它们与事物关联。

 

虽然这是错的,但是功能性磁共振成像研究并不是唯一进行双浸的学科。事实证明,广受好评的软件错误可能会影响数百项研究中的某些结果。这是对所有人的警告。

 

很多人渴望看到活着的人脑深处的活动,基于此,功能性磁共振成像研究还是会无休止地出现在公众眼中,媒体会将彩色的大脑涂鸦粘贴到他们令人喘不上气的新闻中。而功能性磁共振成像是一个年轻的领域,因此其成长的烦恼也是公开的。另一个“危机”也刚刚爆发——当重新扫描同一个人时,获得的大脑活动图可能与原始扫描有很大不同。

 

功能性磁共振成像的分析流程非常复杂,这是个常识。而且由于这是常识,许多功能性磁共振成像研究人员密切关注着功能性磁共振成像数据分析的稳健性——校正大脑活动图的错误、如果不进行校正会发生什么、对方法选择的稳健性建立分析、结果稳健性的问题,这些结果让不同的科学家尝试获取结果的稳健性。

 

人们本可以平等地解释上面的项目,而不是引发危机来表明功能性磁共振成像正在解决它不可避免的问题。

 

NARPS论文以受到警告告终:“尽管目前的研究仅限于对单个功能性磁共振成像数据集的分析,但在其他研究领域中,如果数据是高维度的,则很有可能会出现类似的变异性,并且分析工作流程会变得复杂多样。”

 

图源:unsplash

这些危机应该使我们每个人在复杂的管道中处理数据时都需要认真思考。功能性磁共振成像带来的问题并不是他们独有的,神经科学的其他领域也同样糟糕。我们可以解决数据收集不善的问题。

 

我们也可以做非常高的相关性:一方面,如果使用少量主题,则相关性必须高得离谱才能通过“重要”;另一方面,对于神经元“功能”的大多数研究是功能性磁共振成像研究的两倍,这还是仅仅分析已通过某种阈值以适应所研究的刺激或运动的神经元。

 

我们可以做死鲑鱼实验:无需校正信号泄漏(从Neuropil中抽出),钙成像可以发现神经元体外的神经活动。我们甚至可以做一个NARPS研究的版本,通过改变应用于同一数据集的分析管道来得出关于神经活动的截然不同的结论。锋电位分类的黑魔法就是,所有这些都涉及源自峰值的发现的可靠性。

 

功能性磁共振成像是一种神奇的技术,我对于它持中立态度:对于任何对神经元的工作方式感兴趣的人都具有深远的局限性——它以数百万个神经元的分辨率缓慢地记录血流量。

 

但这些都是技术、分析和统计会遇到的危机。这可能是许多领域的共同点,并且很多领域很幸运,其问题没有像功能性磁共振成像那样公开,但其他科学领域也该引以为戒。


推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:高淳子、钟惠

相关链接:

https://medium.com/the-spike/seventy-teams-of-scientists-analysed-the-same-brain-data-and-it-went-badly-e0d96c23dbf4

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值