Summary
任务态fMRI的重测信度对于个体差异研究至关重要,却往往被忽视。研究发现用广义线性模型中的β值作为个体脑活动的指标是不可靠的。寻找具有较好重测信度的指标,是以后努力的方向。
The elephant in the room
测量的可靠性是研究个体差异的基础,例如使用某量表测量人格特质,多次测量之间的结果应该是可靠的,这样基于该量表的研究才具有好的外部效度。在过去20年,任务态功能磁共振被用于描绘人在从事某种任务时的大脑反应,其"测量“得到的脑活动被用于个体差异的研究,比如提取β值和行为指标做相关,预测某量表得分。这些研究往往忽视了一个重要的问题,task-fMRI测量个体脑活动是否可靠。
Test-retest reliability
衡量可靠性最简单的方法就是进行重测,计算类内相关系数(ICC)或Cohen´s kappa。ICC评估两个测量值之间的相似性,计算的是个体间的差异占总体差异的多少。
例如,0.82的ICC可以解释为82%的方差是由于个体之间的 "真实 "方差造成的,而另外18%的方差是由于测量误差和/或被试内的变异造成的。ICC范围一般在0到1之间,当ICC在0.6以上时认为重测信度好。
<0.4 差
0.41-0.59 一般
0.6-0.74 好
0.75-1 优秀
Wakeup Calls
文章回顾了12个针对青少年儿童样本的fMRI重测信度研究,并且讨论了几个相关的因素包括:test-retest之间的间隔,头动,被试间和被试内大脑的配准,分析模型的使用以及完成任务时的练习效果、不同的服从程度和认知策略。
该文章回顾的这12个研究得到的结论各有不同,另外青少年的大脑处于快速的生长发育期,重测的间隔在各研究中又不同,有的研究甚至使用了是1-2年的时间间隔。在如此长的间隔下计算重测信度会受到发展的因素干扰。再加之样本量相对较小。因此该文作者最后只给出了一个开放的结论,我们要关注ICC,但并没有给出直接的结论,task-fMRI可靠还是不可靠。
文章首先做了meta分析,回顾了56个研究(1,008个被试),发现平均ICC=0.397,随后使用HCP和Dunedin的样本分析发现ROI的重测信度也很差ICCs=.067-.485,基于此结果作者认为常用的任务态fMRI测量目前并不适合用于个体差异的研究,并给出了解释和可能的解决方案。
11个常用的任务和3个结构指标的ICC
前两个研究的一些局限可能不足以说明任务态fMRI目前使用的一些指标重测信度低。比如文章中回顾的研究样本量都比较小。那么这一个ABCD的研究算提供更有力的证据。
该研究检测了MID/SST/N-back三个任务短期(同一时间点内同一任务的两个Run之间的ICC)和长期(不同时间点之间的ICC)的重测信度。结果表明,与任务相关的区域的β值,平均ICC均不超过0.1,ICC最大值没有超过0.4的。
任务相关区域(绿色)和任务不相关区域(蓝色)的β值的平均ICC。E – Emotion, N – Neutral, F – Face, P – place, ANT – Anticipation, FB – Feedback, R – Reward, L – Loss, CS – Correct Stop, CG – Correct Go, IS – Incorrect Stop, W – Within-session. Bars – 1 standard deviation.
Remarks
Elliott的文章引起了不小的反响:
Tor D. Wager组对此发文说明了不同目的biomaker需要不同的重测信度(有的甚至不需要很高的重测信度),列举了fMRI作为有效生物学标记物的例子和有效的分析手段(MVPA/SVM),表示Elliot这类研究让我们知道了地板在哪,天花板还有待研究。
Alain Dagher 表示脑活动并不是一个稳定的特质也不是实际的行为,fMRI不是好的biomarker但有助于我们理解机制。
1/3. Two reasons why fMRI isn't a good biomarker. The "Many a slip" argument: also applies to personality or genetic instruments. Impulsivity questionnaires or alcohol PGS aren't good biomarkers to diagnose substance use disorder. But they are useful to understand mechanisms.
2/3. Based on this seminal paper by Tononi and Edelman, brain circuitry (like genes) exhibits degeneracy (essentially different configurations leading to same outcome). pnas.org/content/96/6/3… (Authors' provocative suggestion: degeneracy is actually adaptive.)
3/3. In sum, fMRI does measure brain activity pretty well. But brain activity is neither a stable trait, nor is it actual behaviour. And in any case, the disorder (addiction, depression, anxiety, etc...) isn't a brain trait per se, but the result of lifelong experiences of a person.
Poldrack在Elliott文章的事后采访中说,对此可以做三件事:走人;装睡;解决问题。他认为Connectivity mapping是一个前进的方向。
当然也有媒体为了吸引眼球,写出这样的标题, 无疑是一种过度解读和误导。
Take Home
这些关于ICC的研究和讨论说明用广义线性模型中的β值作为个体脑活动的指标是不可靠的,使用β值所做的个体分析和预测需要慎重,之前的结果需要重新审视。在组分析中,任务态fMRI依旧能得到稳定的大脑活动区域,但是由于我们亟需将组分析扩展到个体层面以最大化fMRI在实际中的运用,寻找稳定的个体指标和分析手段(例如利用更长的扫描时间,使用全局指标,使用反映脑区共变关系的connectivity,使用mutivarite的分析方式等)将是解决ICC危机的方向。
Bonus
1. 可重复性(Reproducibility)被定义为在不同的条件下对受试者进行的相同测量的变化。在现实生活中,它还包括测量方法、观察者、实验时间、仪器设备、地点和/或环境的变化。重复性(Repeatbility)可单独视为在相同条件下对同一受试者进行重复测量的变化,而可靠性(Reliability)是指测量之间的误差大小。
Repeatability vs. Reproducibility
其实,Repeatbility和Reliability在很多时候都没有严格的区分。
Accurate=Precise=Valid
Repeatable=Consistent=Reliable
2. 看了ABCD文章作者分享的代码,居然用了200多行代码对每一个变量做重命名LOL
3. 值得注意的是最近有人做了一个实验,同一个人同一个任务同样的处理方法结果居然差别很大,Alain觉得这就是一个degeneracy in neurobiology abound的例子。
Refs
Bates, K. L (2020). Studies of brain activity aren’t as useful as scientists thought. https://today.duke.edu/2020/06/studies-brain-activity-aren%E2%80%99t-useful-scientists-thought
Cohen, A. (2020). Duke University researchers say every brain activity study you’ve ever read is wrong. https://www.fastcompany.com/90520750/duke-university-researchers-say-every-brain-activity-study-youve-ever-read-is-wrong
Elliott, M. L., Knodt, A. R., Ireland, D., Morris, M. L., Poulton, R., Ramrakha, S., ... & Hariri, A. R. (2020). What is the test-retest reliability of common task-functional MRI measures? New empirical evidence and a meta-analysis. Psychological Science, 31(7), 792-806.
Herting, M. M., Gautam, P., Chen, Z., Mezher, A., & Vetter, N. C. (2018). Test-retest reliability of longitudinal task-based fMRI: Implications for developmental studies. Developmental cognitive neuroscience, 33, 17-26.
Kragel, P., Han, X., Kraynak, T., Gianaros, P. J., & Wager, T. (2020). fMRI can be highly reliable, but it depends on what you measure.
Tononi, G., Sporns, O., & Edelman, G. M. (1999). Measures of degeneracy and redundancy in biological networks. Proceedings of the National Academy of Sciences, 96(6), 3257-3262.
https://today.duke.edu/2020/06/studies-brain-activity-aren%E2%80%99t-useful-scientists-thought