文献若只如初见-W5

1703cbfdf0b2b33e0e71658d484d91c7.png

  1.  Molecular Psychiatry; 2021(Feb); P-factor; Donders; Heritable Environmental risk factors

  2.  BP; 2021(Jan); TReNDS; IMAGEN; MCCAR+jICA; Novelty-seeking

  3. Neuropharmacology; 2021(Jan); caffeine exposure in utero; ABCD; Julia; DTI

  4. Molecular Psychiatry 2020; NIDA; HPC; binge drinking; Machine Learning

1

f7da7a9136fc7a4b9c25c00c4926b94a.png

Correlations [between different symptom dimensions] are not a problem, but a profoundly important source of information about the nature of psychopathology.

发表在Modular Psychiatry上的观点类文章,来自于Donders。文章的主题是P-factor:A general psychopathology factor (or “P-factor”) to efficiently describe the covariance of psychopathology。 P-factor在之前一篇BP的综述文章中就提到过【传送门->03】,那一个issue有文章专门讨论了p-factor。

似乎这两篇文章是最初提出P-factor概念:

2d8a3c27129ff5d2761ccfe1b9da2001.png

e55ec1f06e66ef3185c1c7d2be8efccc.png

文章首先将P-factor分成了

1)Phenotypic: clinical definitions and phenomenological presentations;

2)genomic: shared genetic liability;

3)neural: brain structure and function

综述了之前的研究发现,并且总结了各模态常用的分析P-factor的方式:

26b2bb0ba875031d51c9fd566c5096a9.png

8b0b1213eab01e579286613d81734b7b.png

919bc0c1b30a0259a1de44236e51d47b.png

结果表明 Psychiatric symptoms and their biological correlates co-vary highly in the population. 

比如:Cell2019年这篇文章发现了109个基因变异与孤独症、ADHD、精神分裂症、双相情感障碍、抑郁症、强迫症和Tourette Syndrome,这八种精神疾病相关。Genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. Cell. 2019;179:1469–82 e1411.

JAMA Psychiatry这篇文章发现与6种精神疾病的皮层厚度差异有关组织结构学(cell type). Virtual Histology of Cortical Thickness and Shared Neurobiology in 6 Psychiatric Disorders. JAMA Psychiatry. 2021 Jan 1;78(1):47-63. 

传统的endophenotype模型认为,基因通过brain影响行为,环境作用于brain。作者强调了共同的遗传环境风险因素(heritable environmental risk factors)对P-factor的作用,因此可能存在多种/双向的因果关系。

6952e0cb4ca0dfe58e7b8eb981cac039.png

对于如此复杂的问题,作者认为从以下角度入手能更好的了解P-factor的机制:

  • Testing to what extent the three P-factors reflect the same variation in the population

  • Quantifying genetic correlations and gene-environment correlations using GWAS data

  • Including multi-level neurobiological data at multiple scales of investigation

  • Modeling the dynamics of gene-environment correlations over time

2

4d54c796c4e32b096b16a8529cd763db.png

IMAGEN的文章,来自于Tri-institutional Center for Translational Research in Neuroimaging and Data Science (TReNDS),之前提到过他们会不定期组织在线的线上讨论,而且会有视频上传B站【传送门】。

IMAGEN是欧洲一个多中心的longitudinal项目,基线14岁,2000名被试,有任务态,静息态,DTI和genetic数据。在16岁有一次non-imaging的follow-up,在19岁和23岁还有两次包括brain scan的follow-up,现在23的数据已完成。

文章首先找到了Novelty-seeking top20%的被试,使用他们常年使用的方法MCCAR+jICA找到了各模态中和Novelty相关的成分。这个方法可以做多模态融合,还有效回避了voxel-wise做相关无法得到过矫正的结果的情况。

c4bd789feaae0a5a8aa756dc47374306.png

这个方法做多模态的融合似乎10年前就有了。

e41a7c72ded27f004177a0918743cc54.png

找到和novelty-seeking相关的成分之后,提取ROI,在14岁数据上建立回归模型,将beta值分别用于预测

  • 19岁同样的被试上(n=239)

  • 19岁剩下一批被试

  • external dataset

都得到了不错的p值。

ede90a4567e4cef177c1bdd9ac8d73e2.png

3bbca84c98e979b8c3911342742d3df8.png

有意思的是,对于没有任务态的数据集,他们提取了ROI静息态的数据,使用了Linear back reconstruction的方法得到了相应任务态的component maps的估计。

3d77d55d15d25921a01e4434780324f1.gif

402ebc057546e0de3c6f7e93b534539e.png

Thoughts: 

1)研究似乎没有完全考虑age,gender, site,puberty的影响,在做实际值和预测值相关时,做了额外的partial correlation控制了gender的影响。在做N-way classification的前,将age/gender/site回归掉了。

2)如果可以展示一下几个预测的target之间的相关就更好了,感觉这几个target之间可能会有很高的相关。

3)选用了top 20%的novelty-seeking的被试,如果选的是25%或者33%或者15%结果会怎样。个人经验这个选择很tricky。

4) 没看讨论,但是觉得从p-factor入手是一个好主意。

5) 找到的biomarker在不同的数据集上的表现都不错,external validation set的使用大大增加了结果的可信度。虽然把resting的数据重建成任务态的component map像是变魔术一样。

3

824b88292b726760aae7f32538b9414a.png

发在Neuropharmacology上的研究(n=9157),用的是ABCD,9-10岁的数据,这个研究考察的怀孕期咖啡因的摄入对下一代大脑发育的影响。文章的思路比较简单,用孕期咖啡因摄入定义分组,然后对DTI数据进行分析。之前一篇类似的ABCD的文章发表在AJP上,分析的是alcohol exposure in utero对大脑发育的影响【传送门->5】。

行为的结果表明有4135个母亲报告了整个孕期每周一次的咖啡因摄入,孕期咖啡因摄入和left IFOF, CST的FA值负相关,和psychopathology相关的测量也和孕期咖啡因摄入正相关。咖啡因的摄modulate了task efficiency和left CST的FA值。

咖啡就像是一般的饮品一样,在孕期并不会严格的控制。如果搜索caffeine exposure in utero的话会发现研究孕期母体咖啡因摄入对大脑发育影响的文章并不少。这个研究的意义在于

2a70c3162ae3aa173ca7e3a727b3b94c.png

另外,虽然早就听过Julia,这还是第一次看到有文章使用Julia语言进行分析,没看什么不得不用Julia的理由。Julia不是解释性语言,能提供像C一样的运行速度,容易调用其他语言,支持GPU。

ChrisRackauckas:

如果你用 Julia 处理一个 10 秒内的问题,它的优势并不能体现出来。而一旦处理的问题变复杂,需要花费比较长的时间,这时 Julia 的优势就会慢慢体现了。如果你需要解决 100 个 10 秒的优化问题,第一次执行需要花费 17 秒,接下来的优化不需要编译,大约只需要 10 秒。因此,总运行时常为 1007 秒。所以,当用 Julia 处理一个 10⁵ 秒的问题时,这 7 秒基本可以忽略不记;但如果用 Julia 处理 5 秒甚至更小的问题时,这 7 秒的差异就特别明显。【来源:知乎 Julia vs R vs Python: 简单优化对比】

4

f852b61574dc2f2a6098201bba56d8f7.png

偶然发现来自NIDA的一篇文章,使用的是HPC的数据做机器学习预测binge drinking,看完之后觉得这文章能发Molecular Psychiatry得算是有大佬的加持了吧。


首先定义了case (n=177)和control(n=309),然后对比了以下几个组变量的预测表现,

  • all variables

  • nonbrain variables

  • only brain variables

其中brain的数据包括了7个任务的ROI和结构像的ROI。

结果见下图,单独使用brain数据做预测结果是最差的并不意外。即使在nonbrain variables的基础上加上brain variables模型的表现也没有好到哪去。个人经验,用task fMRI做预测真的非常浮云。

dc1f49389af02c7a75aeb8aa86aeb460.png

2d082f3056b0c2ab080fa44d166a9e40.png

看👆table中的结果,他们的模型表现真的可能是inflated。被试很少是一个问题,另外一个问题是,看下图👇分析流程,4那里的test sample只有一份,更好的方式是test sample也生成10份【也就是Nested CV】,最后的结果使用10份test sample结果做平均,就应该不会有那么高了吧。另外,我觉得发modular psychiatry好歹也要有个external validation set吧。不过想想,他们用了一堆任务态的ROI,怎么变出来external validation set😀。使用machine learning的注意事项,推荐阅读【传送门

9ca95fd08cfbecf84034de45a22f8c23.png

其实用Sklearn非常容易实现nested CV,这是sklearn给出的nested cv实现的方式👇

ee034d609f6a535f86a33ff035ad9ae1.png

GridSearchCV用于kfold找到最优参数,外层的cross_val_score同样用了kfold。可惜作者用的是R,代码分享在SI中。之前在kaggle里看到用R做机器学习,现已绝迹。

显然对于这样的结果,作者可能有点过于乐观了

4eaa71ffffe9fa9ad6058b87fafcc9d3.png

b7a4e4f3fc161fb3a353ca476eb882f7.png

补上一份祝福

祝各位牛年牛牛牛牪牪牪犇犇犇

🐂🐂🐂🐂🐂🐂🐂🐂

拿到的审稿意见都是小修

5ef9004e410247bfcded63a8f7b420e8.png

视频就懒得剪了

动物植发都是一个流程

255dc3def1037d766beea61ca7ec27a0.png

8a9fc4223b816dea356a697d60c78e52.gif

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理、建模和可视化是数据分析过程中非常重要的环节,这些环节的成功与否直接影响到数据分析的结果与价值。作为CSDN数据分析的三大关键步骤,数据预处理、建模和可视化的作用是多方面的。 首先,数据预处理的目的是对原始数据进行清洗、处理和转换,以便更好地进行后续数据分析。数据预处理有很多种方法,如数据清洗、缺失值填充、异常值处理、数据集成、数据降维等。只有在预处理阶段对数据进行充分准确的处理,才能保证后续的建模和可视化的准确性。 其次,建模是数据分析的核心步骤,是通过数据分析来建立模型的过程,目标是对数据进行预测和决策。建模过程包括选择建模方法,配置模型参数,模型训练和模型评估等步骤。建模需要根据实际问题选择合适的建模方法,并进行适量的特征工程和模型调参,以获得最优的预测和决策效果。 最后,可视化是数据分析结果的展示方式,旨在将结果呈现给用户,在数据探索和决策时加强用户的感性理解。可视化可以采用多种图表形式,例如柱状图、折线图、散点图等,也可以通过交互式可视化系统进行交互操作表示。通过可视化,数据分析器可以更直观地理解数据分析的结果,为后续的分析和决策提供有力支持。 综上所述,CSDN数据分析中的数据预处理、建模和可视化是相互依存、相辅相成的环节,只有将它们表现得尽善尽美,我们才能解决实际问题,提高数据因信而产生的价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值