小样本BWAS研究结果可重复性较低

小样本研究结果可重复性较低

a04b5561d48ffda98795c0b2467a58da.png

全脑关联研究(BWAS)的目的是利用来自大脑扫描的数据,如磁共振成像(MRI),来寻找大脑结构和/或功能的变化与认知和心理健康相关特征之间的联系。这种联系可能有助于我们预测或预防精神疾病,提高我们对人类认知能力的理解。然而,MRI较高的成本(每小时约1000美元)限制了BWAS的样本量(通常为25名参与者),这使得它很难获得可重复的结果。

这篇BWAS文章,评估了样本量对全脑关联可重复性的影响。作者使用了迄今为止三个最大的神经影像研究的数据:

ABCD(N=11,874)

HCP(N=1,200)

UKB(N=35,735)

研究了不同样本量(n=25-30,000)下BWAS的可重复性。结果表明小样本的BWAS样本量会高估(inflated)效应量和产生无法重复的结果。当样本量达到数千时,结果的可重复性开始提高,高估的效应量降低。

公众号有两篇关于该研究在2020年的preprint不太成熟的推文,

笔记 | Towards Reproducible BWAS

笔记 | Towards Reproducible Brain-wide Association studies

从preprint到发表,似乎审稿人要求分析更多的数据,因此加入了HPC和UKB。由于使用了不同模态×单元/多元分析的方法,不难想象工作量陡增,文章近2年后才得以发表。

似乎有些文章就是在用fancy的方式讲清楚了一些大家心里似乎都明白的事情,就好像前段时间的NARPS文章,不同的课题组分析同一批数据,分析过程中如此多的自由度(模型/参数/软件的使用等),导致不同的结果是意料之中的事情。

332c3f4ed9153e75acc66bf62d7b3c5c.png

小样本会降低可重复性,同样也是意料之中的结果,甚至10年前已经被提出👇

6bb8cb9710ef9e258ef9a9700968d5b4.png

最近发表的这篇BWAS文章为此提供了更多的证据。不分析不知道,没想到最高的相关可能不到0.2,大部分的BWAS相关都是在0附近。

827ddcd8c5997aad3d1ae7a7b41b533c.png

有什么影响?

1. 小样本可能会受到审稿人/编辑/项目评审的质疑

类似于这篇BWAS的文章会让更多的审稿人/编辑/基金评审意识到小样本的问题,小样本研究被拒可能性变高。Nature对该文的报道中讲道,有个人参加了项目评审,有评委就基于这篇BWAS文章2020年的预印本对某些小样本的BWAS研究申请提出了质疑。

“The paper appeared as a preprint in 2020, and Gratton says she has sat on grant-review panels that have cited it when raising skepticism over relatively small BWAS studies. “This is an important paper for the field,” she adds.”

另外一个人也明确表示了他的观点:

"So, if I were reviewing a grant proposing a BWAS, I would first want to make sure that it had a sample size in the thousands, well enough powered to detect a small effect size. But I’d also want to know why such an association should be expected in the first place. And, if any such association was found, how that information would really advance our understanding of the neural basis of the psychological functions or conditions in question."

推荐阅读他的长博客

Go big or stay home! Small neuroimaging association studies just generate noise.

http://www.wiringthebrain.com/2022/03/go-big-or-stay-home-small-neuroimaging.html?spref=tw

2. BWAS向GWAS看齐

在文章中作者首次正式定义了BWAS的概念,方便人们从genetic领域的GWAS研究思考目前遇到的挑战。文章的讨论以及事后的各种报道都提到了genetics领域的研究GWAS,认为现在小样本BWAS所遭到的质疑和GWAS研究多年前所经历的类似。GWAS从其可重复性危机中恢复过来,为BWAS树立了一个良好的榜样。早期的候选基因研究统计效力不足,常见的遗传变异与精神病表型之间的许多关联无法被复制。因此GWAS联盟已将基因组样本增加到数百万个,并利用专门的研究设计(如双生子)和方法创新(如多基因风险评分),制定严格的数据标准。

类似地,那篇长博客中也提到:

"...这准确地描述了 "candidate gene "研究的特点,有数百篇论文声称某些遗传变异与某些表型之间存在关联,这些论文都是基于非常小的样本量。到2000年中期,该领域已经开始认识到这些来自小型研究的关联报告并不可靠。形成了非常大的联盟来汇集样本,特别是各种遗传病患者的样本,并出现了新的技术,使全基因组关联研究(GWAS)得以开展。这些研究在统计学上进行得更为严格,对被测试的数十万个参数进行了校正,包括从一开始就进行必要的可重复性样本,并报告所有统计结果(也才有了现在的PGRS)。GWAS在确定与各种性状和条件相关的遗传变异方面非常成功。它们还清楚地表明,以前报告的候选基因关联是虚假的。..."

3. 小样本就此凉凉?

不。作者自己在讨论中也非常小心地说明了小样本研究的重要性。

"例如,人类大脑功能组织在群体中的中心倾向可以通过小样本(即n = 25)内的平均数来准确表示。精确的个体化的RSFC和fMRI激活脑图可以通过对同一个人反复取样获得。小样本也为减少MRI伪影提供了蓝本,增加了可用的数据量。使用非BWAS方法,人类大脑和行为之间的许多基本联系已被发现,并在小型神经影像学样本中得到重复。例如被试内设计、有诱导效应的研究,或两者兼而有之(如干预)常常能提高测量的可靠性和效应大小。对于较罕见的临床情况,收集大样本是不可能的。在许多情况下,被试内诱发效应的方法不仅具有成本效益,而且与临床护理最为相关。因此,小样本的神经影像学对研究人脑始终是至关重要的。

be6094d58fa71e21f28d28f2f00d9498.png

因此不可完全否认小样本研究的意义,但重要的是研究者应该懂得如何解释和看待小样本研究中的结果

对于小样本研究,另外的一些操作有可能提高可重复性。

例如CPM组就此对预测模型提出了不少的建议:

d9d7e36f70681d7db277bf2d21e38ac6.png

#1:在独立的数据集上对模型进行外部验证,例如数据集内的CV,跨站点的数据集,跨数据集。

#2:分享模型,以便其他人可以从外部验证它们。

#3:预注册。

#4:测试预测个体差异的模型是否能捕捉到个体内的变化包括由实验操作(如药物干预)引起的变化。

#5:做sticky science。坚持你的模型,验证它们,分享它们,将其他小组的模型应用于你的数据,以测试其普遍性。

#6:注重使用可靠的行为测量,这为可预测性设定了上限。

#7:阅读和参照best practice论文。

#8:根据任务和/或自然任务数据建立模型。

#9:使用多变量方法,基于多变量模式的模型优于基于单个特征的模型

#等

Paul发文总结了ENIGMA如何助力可重复研究,他指出,将现有的数据集集中起来,已经取得了巨大的成功。长推文就不展开了,感兴趣的前往阅读。

4a963986902b601104bb81ee87153f7f.png

需要注意的还有,这一篇BWAS研究只反映了resting-state和MRI的相关结果,并不能代表全部的fMRI研究。但对于task-fMRI是否可靠的讨论依然在继续。

34a14b8c8069db0db3fcbd90b6e66b8a.png

3a4cb1a7da249ff6962d3a2a3c8ba656.png

4. 大样本的问题也不可忽视

关注小样本问题的同时,大样本的问题也会被重新提及。比如ABCD从9-10岁开始采集数据,一个无法避免的问题就是puberty在性别上已经出现了差异。这从一定程度上表明一些混淆变量在大样本中是难以控制的。头动、头部大小、呼吸频率和深度的变化,以及扫描仪硬件和软件的差异,这些因素在大型和长期的成像研究中更容易发生。

有关讨论可以阅读:

65b9a6b63178edd74b09a4b23a5064c6.png

不得不说的还有成本问题,包括人力财力物力和时间。还有一些场外的因素同样会制约大样本研究的发展就不展开了。

第几次信心受到打击?

45a9cbbb74ea6551f46af9f772680a8f.png

  • salmon

  • voodoo correlation

  • double-dipping

  • cluster failure

  • NAPRS

  • BWAS

其实这些都是对一类技术滥用的准确批评,而不是对技术本身的批评。"They are accurate critiques of one particular misuse of the technology rather than the technology itself. " 具体不展开,有很多报道,感兴趣可以读一读这一篇文章。

87818407934f09936e58fa4193c5b8d9.png

难怪有人会觉得BWAS就跟死鱼研究一样是对整个领域的打脸。如果有财力物力人力采集1000人的样本,谁愿意只采集25人呢?这应该是一部分人不喜欢这篇BWAS文章的原因吧。

b45fa0021ed8c71762d8850af7a2a14f.png

有人在推特上说如果有时光机器让我回到2009或者2010年写这么一篇文章的话就好了。如果有时光机器回到2009或者2010年,我还是_____。

1314b09b6afc68ea365c544ac0287482.png

并没有如果,事已至此降低期望吧。

媒体是不是又开始标题党了?

Nature

73dc8e3d485d1417ef9e1043939a0d41.png

Nature Research highlight

eec4dbc9fa8887cd880779354fe37264.png

The New York Times

00d35d49388555d54648e433626e0eb8.png

USnews

21bc131ee78564120b2bbf03ca08346f.png

Bombshell???

后面几个媒体标题比较中肯

目测最近将会看到不少标题党文章

👁

a44224961569b50cbad8fb99fbb0a5ea.png

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值