任务态fMRI重测信度能有多低?

Summary

任务态fMRI的重测信度对于个体差异研究至关重要,却往往被忽视。研究发现用广义线性模型中的β值作为个体脑活动的指标是不可靠的。寻找具有较好重测信度的指标,是以后努力的方向。

The elephant in the room

测量的可靠性是研究个体差异的基础,例如使用某量表测量人格特质,多次测量之间的结果应该是可靠的,这样基于该量表的研究才具有好的外部效度。在过去20年,任务态功能磁共振被用于描绘人在从事某种任务时的大脑反应,其"测量“得到的脑活动被用于个体差异的研究,比如提取β值和行为指标做相关,预测某量表得分。这些研究往往忽视了一个重要的问题,task-fMRI测量个体脑活动是否可靠。

Test-retest reliability 

衡量可靠性最简单的方法就是进行重测,计算类内相关系数(ICC)或Cohen´s kappa。ICC评估两个测量值之间的相似性,计算的是个体间的差异占总体差异的多少。

840da2008512b16444293a01e019e1fd.png

例如,0.82的ICC可以解释为82%的方差是由于个体之间的 "真实 "方差造成的,而另外18%的方差是由于测量误差和/或被试内的变异造成的。ICC范围一般在0到1之间,当ICC在0.6以上时认为重测信度好。

<0.4  差

0.41-0.59 一般

0.6-0.74 好

0.75-1 优秀

Wakeup Calls 

97a53ca49c72cbcf169b37bd40605837.png

文章回顾了12个针对青少年儿童样本的fMRI重测信度研究,并且讨论了几个相关的因素包括:test-retest之间的间隔,头动,被试间和被试内大脑的配准,分析模型的使用以及完成任务时的练习效果、不同的服从程度和认知策略。

该文章回顾的这12个研究得到的结论各有不同,另外青少年的大脑处于快速的生长发育期,重测的间隔在各研究中又不同,有的研究甚至使用了是1-2年的时间间隔。在如此长的间隔下计算重测信度会受到发展的因素干扰。再加之样本量相对较小。因此该文作者最后只给出了一个开放的结论,我们要关注ICC,但并没有给出直接的结论,task-fMRI可靠还是不可靠。

974fcf9790640aac7d5888077ed44a92.png

文章首先做了meta分析,回顾了56个研究(1,008个被试),发现平均ICC=0.397,随后使用HCP和Dunedin的样本分析发现ROI的重测信度也很差ICCs=.067-.485,基于此结果作者认为常用的任务态fMRI测量目前并不适合用于个体差异的研究,并给出了解释和可能的解决方案。

61ed1f7b0c1cdcd6b490b1475dc0b130.png

11个常用的任务和3个结构指标的ICC

e9d0be8f9f429a580af5b4d075ba967f.png

前两个研究的一些局限可能不足以说明任务态fMRI目前使用的一些指标重测信度低。比如文章中回顾的研究样本量都比较小。那么这一个ABCD的研究算提供更有力的证据。

该研究检测了MID/SST/N-back三个任务短期(同一时间点内同一任务的两个Run之间的ICC)和长期(不同时间点之间的ICC)的重测信度。结果表明,与任务相关的区域的β值,平均ICC均不超过0.1,ICC最大值没有超过0.4的

7044be54cf40c34aba392c079ecafe6d.png

任务相关区域(绿色)和任务不相关区域(蓝色)的β值的平均ICC。E – Emotion, N – Neutral, F – Face, P – place, ANT – Anticipation, FB – Feedback, R – Reward, L – Loss, CS – Correct Stop, CG – Correct Go, IS – Incorrect Stop, W – Within-session. Bars – 1 standard deviation.

Remarks

Elliott的文章引起了不小的反响:

Tor D. Wager组对此发文说明了不同目的biomaker需要不同的重测信度(有的甚至不需要很高的重测信度),列举了fMRI作为有效生物学标记物的例子和有效的分析手段(MVPA/SVM),表示Elliot这类研究让我们知道了地板在哪,天花板还有待研究

35809834e6e906925e645eec577a16d7.png

Alain Dagher 表示脑活动并不是一个稳定的特质也不是实际的行为,fMRI不是好的biomarker但有助于我们理解机制。

1/3. Two reasons why fMRI isn't a good biomarker. The "Many a slip" argument: also applies to personality or genetic instruments. Impulsivity questionnaires or alcohol PGS aren't good biomarkers to diagnose substance use disorder. But they are useful to understand mechanisms. 

2/3. Based on this seminal paper by Tononi and Edelman, brain circuitry (like genes) exhibits degeneracy (essentially different configurations leading to same outcome). pnas.org/content/96/6/3… (Authors' provocative suggestion: degeneracy is actually adaptive.) 

3/3. In sum, fMRI does measure brain activity pretty well. But brain activity is neither a stable trait, nor is it actual behaviour. And in any case, the disorder (addiction, depression, anxiety, etc...) isn't a brain trait per se, but the result of lifelong experiences of a person.

Poldrack在Elliott文章的事后采访中说,对此可以做三件事:走人;装睡;解决问题。他认为Connectivity mapping是一个前进的方向。

a6b28e6574b7a9112b582c15d8815c96.png

当然也有媒体为了吸引眼球,写出这样的标题, 无疑是一种过度解读和误导。

e383f63855fe72ec2e21bcec4405e2b7.png

Take Home

这些关于ICC的研究和讨论说明用广义线性模型中的β值作为个体脑活动的指标是不可靠的,使用β值所做的个体分析和预测需要慎重,之前的结果需要重新审视。在组分析中,任务态fMRI依旧能得到稳定的大脑活动区域,但是由于我们亟需将组分析扩展到个体层面以最大化fMRI在实际中的运用,寻找稳定的个体指标和分析手段(例如利用更长的扫描时间,使用全局指标,使用反映脑区共变关系的connectivity,使用mutivarite的分析方式等)将是解决ICC危机的方向。

Bonus

1. 可重复性(Reproducibility)被定义为在不同的条件下对受试者进行的相同测量的变化。在现实生活中,它还包括测量方法、观察者、实验时间、仪器设备、地点和/或环境的变化。重复性(Repeatbility)可单独视为在相同条件下对同一受试者进行重复测量的变化,而可靠性(Reliability)是指测量之间的误差大小。

Repeatability vs. Reproducibility

92d50e944655c6dc9aafee6d381f5452.png

其实,Repeatbility和Reliability在很多时候都没有严格的区分。

Accurate=Precise=Valid

Repeatable=Consistent=Reliable

7bd053f93f240db0a895357aff899eee.png

2. 看了ABCD文章作者分享的代码,居然用了200多行代码对每一个变量做重命名LOL4cd68216a3ffbb29bf390006a8f6a647.png17a06ee71fedcfa22f9f2584d620c804.png2be41eab1c44c0e544a7ea7999180ac1.png53b9fce022c70000892e889cb86b46a3.png7b3f582dc99aa5ac33faeb34d671daab.png0642de6874e9e0b5baf3f1438b776715.png0efa207738fe035ffe31dbe29efd7e89.png

20bb0068cf2ca8325825a57ae31b50f5.png

3. 值得注意的是最近有人做了一个实验,同一个人同一个任务同样的处理方法结果居然差别很大,Alain觉得这就是一个degeneracy in neurobiology abound的例子。

a588671b2fa980913dd8b5e4682e3034.png

Refs

Bates, K. L (2020). Studies of brain activity aren’t as useful as scientists thought.  https://today.duke.edu/2020/06/studies-brain-activity-aren%E2%80%99t-useful-scientists-thought

Cohen, A. (2020). Duke University researchers say every brain activity study you’ve ever read is wrong. https://www.fastcompany.com/90520750/duke-university-researchers-say-every-brain-activity-study-youve-ever-read-is-wrong

Elliott, M. L., Knodt, A. R., Ireland, D., Morris, M. L., Poulton, R., Ramrakha, S., ... & Hariri, A. R. (2020). What is the test-retest reliability of common task-functional MRI measures? New empirical evidence and a meta-analysis. Psychological Science31(7), 792-806.

Herting, M. M., Gautam, P., Chen, Z., Mezher, A., & Vetter, N. C. (2018). Test-retest reliability of longitudinal task-based fMRI: Implications for developmental studies. Developmental cognitive neuroscience33, 17-26.

Kragel, P., Han, X., Kraynak, T., Gianaros, P. J., & Wager, T. (2020). fMRI can be highly reliable, but it depends on what you measure.

Tononi, G., Sporns, O., & Edelman, G. M. (1999). Measures of degeneracy and redundancy in biological networks. Proceedings of the National Academy of Sciences96(6), 3257-3262.

https://today.duke.edu/2020/06/studies-brain-activity-aren%E2%80%99t-useful-scientists-thought

3e1c4e709fe1ac2c456dacdfb4c3a425.png

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值