非负矩阵分解(NMF)的几个相关运用

本文详细介绍了非负矩阵分解(NMF)在生物信息学和神经影像学中的应用,涉及癌症基因表达分析、DNA甲基化亚型识别、MRI数据的结构变异和阿尔茨海默病亚型划分,展示了NMF在数据降维和聚类中的优势。
摘要由CSDN通过智能技术生成

3b8246cfb6e54a5e4cc1d61df82c4c72.jpeg

2022年的存货,也是之前NMF推送中留的坑。

>非负矩阵分解NMF介绍<

本文列出了几项在生物信息学和神经影像学领域中应用NMF分析的研究。

8c1210022c5ad6eee295d17c189d0575.png

7c5412b750da07799464864b05cf4378.png

应该是最早将NMF运用到微阵列(Microarray)数据上的文章。作者展示了NMF从癌症相关的微阵列数据中检测生物信息的能力。R包NMF中很多内容都受到了这篇文章的影响,比如默认算法Brunet 2004,甚至输入的矩阵形式采用的都是feature x sample的形式。NMF示意图如下,其中W称之为metagenes,H称之为metagene expression profile。(注意A是feature x sample的矩阵)

55372951039e338fdbf040049f15d634.png

rank(k)增加意味着对样本的进一步划分。下图显示了等级k=2、3、4、5时产生的consensusmap。清晰的块状对角线模式证明了2、3和4类模型的稳健性,而5类模型展示出分散性(dispersion)的增加,反映为cophenetic系数的下降。

36c259c06ff7624bfe4800d332c71be0.png

作者在最后一个实例中使用了四种类型的中枢神经系统胚胎性肿瘤的数据,10个典型的髓母细胞瘤,10个恶性胶质瘤,10个横纹肌瘤,和4个正常样本。分别使用了层次聚类(HC),自组织映射(SOM)和NMF。

👇图a. HC虽然展示出了四个类型的分类,但是检查分支后发现,正常样本和恶性胶质瘤在一个分支,髓母细胞瘤和横纹肌瘤在另一个分支。总之层次聚类结果很差。

fd63408306f27314915309628ef7de72.png

👇图b. SOM的三中心的聚类是最稳健的,具有最高的cophenetic系数。与HC的情况一样,在这种情况下,正常和恶性胶质瘤样本始终聚集在一起。而四中心聚类并不稳定,cophenetic系数下降。因此无法使用SOM方法正确识别四种样本。

71afe25aaae63542a0916a729ad08168.png

👇图c. NMF能更好的识别该数据集中的样本种类,只有两个被错误分类的样本。

e5e30fc4bf351deda8065bd279f98038.png

什么是SOM自组织映射?

每次迭代更新所有的中心点(神经元)。

64e1590958b1c9aaaee38c73ce4b6e88.gif

Brunet, J. P., Tamayo, P., Golub, T. R., & Mesirov, J. P. (2004). Metagenes and molecular pattern discovery using matrix factorization. Proceedings of the national academy of sciences101(12), 4164-4169.

0b2a0156d19ed4417733ef27f4cd012a.png

ba24246765aac3a1db6a83cdc7f45628.jpeg

2021年Molecular Psychiatry的文章,对DNA甲基化数据做NMF,下图便是NMF选择rank=2的依据。再对系数做Kmeans确定两个分类。甲基化分析表明,在确定的亚型之间的T细胞比例有明显的差异。由于这一发现,他们还测试了该分区是否可以通过T细胞受体β复合物得到验证,就是额外做一个TCR来验证NMF的分类和相应的假设。Dice相似性系数(DSC)被用来评估甲基化亚型和TCR亚型之间的重叠情况。

23cb8ebafb28117460ee2bbee657d782.png

Luo, C., Pi, X., Hu, N., Wang, X., Xiao, Y., Li, S., ... & Lui, S. (2021). Subtypes of schizophrenia identified by multi-omic measures associated with dysregulated immune function. Molecular psychiatry26(11), 6926-6936.

12eb80ff762fa588e2f3ec9619737b5d.png

96ee5117ffa91e95cae0e6bd81794b8c.png

较早将NMF运用到MRI数据上的研究,文章很多技术细节都很清楚,值得一读。结果表明NMF可以识别出个体间的共同变化(co-vary)区域,并且它们一定程度上遵循了大脑的解剖结构和功能单元。文章使用分别使用了👨和🐀的数据集系统比较了PCA/ICA/NMF在Sparsity/Incoherence/Regression accuracy/Reproducibility几方面的差异。

be55980b66cd453a00cc666c9aa4ea74.png

例如稀疏性的对比,

a4592a36985beb72cb5bc67fa731e07c.png

各种比较之后表明,相较于PCA和ICA,NMF有更好的特异性(specificity)和普适性(generalizability)。

需要注意的是,文章并没有使用标准的NMF,而是使用了projective NMF,和标准NMF的主要区别就是pNMF得到的系数矩阵更稀疏,并且可以直接用来作为数据分组的信息。那么作为专门提高稀疏性的方法,pNMF和PCA/ICA对比稀疏性,结果难道不是显而易见的吗。自此之后的三年内,UPenn出了一系列基于pNMF的文章,列表见文末。

Sotiras, A., Resnick, S. M., & Davatzikos, C. (2015). Finding imaging patterns of structural covariance via non-negative matrix factorization. Neuroimage108, 1-16.

3c0bb41976a69e527645430b37bb79e6.png

c2382f7bf9bf62df30f248d36b2e79b1.png

使用NMF做聚类,在三个阿尔茨海默病数据集中确定了结构性MRI的萎缩亚型,并在临床、认知和生物学特征方面对亚型进行了比较。发现四种亚型:(i) 内侧-颞部为主的萎缩,记忆和语言功能最差,年龄较大,CSF tau水平最低,血管病变量最高;(ii) 顶枕部萎缩,执行/注意力和视觉空间功能差,CSF tau高;(iii) 轻度萎缩,认知表现最好,年龄小,但CSF tau水平最高;(iv) 弥漫性皮质萎缩,临床、认知和生物学特征居中。

之后将有前驱症状的(prodromal)被试根据这四种亚型进行分类,并测试他们是否在特定领域表现出认知能力下降。结果发现有前驱症状的被试已经表现出了类似的亚型特征。对比前驱病症被试的不同亚型,内侧-颞部亚型在记忆和语言方面随着时间的推移下降最快;顶枕部亚型在执行/注意力领域下降最快;弥漫性亚型在视觉空间功能方面下降最快;而轻度亚型在所有领域都表现出中间性的下降。

f1800d02ea5854bf1a4ba8ca2caec968.png

灰质分割成了1024个同等大小的感兴趣区域,获取灰质体积。之后用R做了标准NMF。为什么选的4类?他们在三个数据集中对每个聚类top100的特征计算了Dice系数来评估各数据集的聚类结果的重合度。此外,为了刻画每个亚型的特征,对亚型内的被试计算top100特征的平均值。对于新数据(前驱症状被试)和那个亚型的特征更相似则归为该亚型。top100计算Dice系数和对新数据做预测值得借鉴。

Ten Kate, M., Dicks, E., Visser, P. J., van der Flier, W. M., Teunissen, C. E., Barkhof, F., ... & Alzheimer’s Disease Neuroimaging Initiative. (2018). Atrophy subtypes in prodromal Alzheimer’s disease are associated with cognitive decline. Brain141(12), 3443-3456.

ecb701a42c7639aab8b4a6f92879c139.png

af986027436a1094a5a809c2fcd86c03.png

2022年1月31日上线的文章,NMF分解生成的系数被用于后续分析,Normative model建模和高斯混合模型聚类属常规操作。分析中的一些步骤存疑,这里仅展示其运用NMF的思路。

对灰质体积(👇图A)做spare-NMF(也就是在loss函数中加入L1正则),相比标准NMF,sparse-NMF可以提高分解后矩阵的稀疏性(就不需要像paper4那样选top100特征)。根据Paper3以及后续的研究,pNMF也是提高稀疏性的方法。

对ABIDE2_TD做完sparse-NMF后得到一个特征矩阵(👇图B),也就是几个Factors,之后使用该特征矩阵对另外两个数据集做分解(👇图C/D)。用分解得到系数建模Normative model,之后对deviation用高斯混合模型聚类。

f3562a1b678dbebd453a1ad280ab9db1.png

Shan, X., Uddin, L. Q., Xiao, J., He, C., Ling, Z., Li, L., ... & Duan, X. (2022). Mapping the heterogeneous brain structural phenotype of autism spectrum disorder using the normative model. Biological Psychiatry91(11), 967-976.

ea04c6620deae7af73a5df003b546efb.png

ba48db9b798da9c4c16bb36d941d6077.png

2020年BP-CNN上的文章,做的是MEG。如👇图A-D,将数据分段,在每个窗口通过计算单试次锁相构建了功能连接矩阵。此处的数据A的维度为 b × (b − 1)/2 × N 其中b是节点数量,N是时间窗口的数量。

59253f93da5c43271c296497517027a3.png

如👆图E所示,对数据A做NMF分解,得到Network和Activations的大小分别为[b×(b-1)/2×k]和(k×N),其中k是功能网络的数量,这里由误差曲线的拐点确定(如F所示)。然后(G)计算Energy和Entropy并做组间比较。初看以为是对3维数据做NMF感觉很特别,其实从实现上来看应该还是将2维的FC转成1维向量做的,这里用的NMF是sparse-NMF。

Phalen, H., Coffman, B. A., Ghuman, A., Sejdić, E., & Salisbury, D. F. (2020). Non-negative matrix factorization reveals resting-state cortical alpha network abnormalities in the first-episode schizophrenia spectrum. Biological Psychiatry: Cognitive Neuroscience and Neuroimaging5(10), 961-970.

2799f66f07d9c8c8a615d3907b6110bc.png

bd973fb24f1509d45ca62e99c940acc7.png

使用了sNMF对临床(287变量)和结构数据(204个灰质、白质和脑脊液区域)进行聚类。临床数据研究发现一个基于阳性症状、阴性症状、抑郁和功能的四维临床模型,该模型与所有验证指标(包括早期症状、纵向和精神分裂症多基因风险评分)均显示出关联。结构数据分析揭示了一个与分布式脑体积减少、阴性症状增加、执行IQ降低和精神分裂症多基因风险评分增加相关的亚组。

文章使用了验证集,并且有纵向数据和多基因风险评分。

13cc6ae98f9b3ac6be0d7d8a539e74fc.png

e014746fa02be6d5c39a2bb7593441cb.png

Dwyer, D. B., Buciuman, M. O., Ruef, A., Kambeitz, J., Dong, M. S., Stinson, C., ... & PRONIA Consortium. (2022). Clinical, brain, and multilevel clustering in early psychosis and affective stages. JAMA psychiatry79(7), 677-689.

cb0a681c89b37535b3e8557ba6af4431.png

7953eb110f44172a677e89da3d9888c8.png

4c0075eeb5a2169caa73f268a3c8bc4e.png

【这个文章躺在这里的时候还是2022年,目前已发表】NMF找到空间模型后做组间比较,考察的是饮酒程度与这些空间模式皮层厚度减小的交互作用。结果发现在六种非负矩阵分解(NMF)衍生的皮层厚度模式中,无饮酒或低度饮酒者的皮层厚度下降速率在所有年龄组中相似。在中度饮酒和重度饮酒者中,存在不同程度的交互作用。

95a224dce6b9555de84444fee8c781a5.png

Github有代码,但是没找到NMF相关的代码,对于模型结果可视化用作补充材料,R代码可以借鉴。

https://htmlpreview.github.io/?https://github.com/sundelinustc/NCANDA_NMF/blob/main/SDL_R_NMF.html

4b80838bdbfbc90b9889d2e6748999d3.png

分析的思路借鉴的是2017年PNAS的文章,推测应该用了pNMF。

f59ed9d321fd203d5a42be45a8a06437.png

7435e944999f4f2c13479d3807664b88.png

Sun, D., Adduru, V. R., Phillips, R. D., Bouchard, H. C., Sotiras, A., Michael, A. M., ... & Morey, R. A. (2023). Adolescent alcohol use is linked to disruptions in age-appropriate cortical thinning: an unsupervised machine learning approach. Neuropsychopharmacology48(2), 317-326.

Sotiras, Aristeidis, Jon B. Toledo, Raquel E. Gur, Ruben C. Gur, Theodore D. Satterthwaite, and Christos Davatzikos. Patterns of coordinated cortical remodeling during adolescence and their associations with functional specialization and evolutionary expansion. Proceedings of the National Academy of Sciences 114, no. 13 (2017): 3527-3532.

相关文献

  • Sotiras, Aristeidis, Jon B. Toledo, Raquel E. Gur, Ruben C. Gur, Theodore D. Satterthwaite, and Christos Davatzikos. Patterns of coordinated cortical remodeling during adolescence and their associations with functional specialization and evolutionary expansion. Proceedings of the National Academy of Sciences 114, no. 13 (2017): 3527-3532.

  • Marieta Pehlivanova, Daniel H. Wolf, Aristeidis Sotiras, Antonia Kaczkurkin, Tyler M. Moore, Rastko Ciric, Philip A. Cook, Angel Garcia de La Garza, Adon Rosen, Kosha Ruparel, Anup Sharma, Russell T. Shinohara, David R. Roalf, Ruben C. Gur, Christos Davatzikos, Raquel E. Gur, Joseph W. Kable and Theodore D. Satterthwaite. Diminished cortical thickness is associated with impulsive choice in adolescence. Journal of neuroscience (2018): 2200-17.

  • Nassar, Rula, Antonia N. Kaczkurkin, Cedric Huchuan Xia, Aristeidis Sotiras, Marieta Pehlivanova, Tyler M. Moore, Angel Garcia de La Garza, David R. Roalf, Adon F. G. Rosen, Scott A. Lorch, Kosha Ruparel, Russell T. Shinohara, Christos Davatzikos, Ruben C. Gur, Raquel E. Gur, and Theodore D. Satterthwaite. Gestational Age is Dimensionally Associated with Structural Brain Network Abnormalities Across Development. Cerebral Cortex (2018).

  • Varikuti, Deepthi P., Sarah Genon, Aristeidis Sotiras, Holger Schwender, Felix Hoffstaedter, Kaustubh R. Patil, Christiane Jockwitz, Svenja Caspers, Susanne Moebus, Katrin Amunts, Christos Davatzikos, and Simon Eickhoff. Evaluation of non-negative matrix factorization of grey matter in age prediction. NeuroImage 173 (2018): 394-410.

  • Antonia Kaczkurkin, Rula Nassar, Cedric Xia, Aristeidis Sotiras, Marieta Pehlivanova, Tyler M. Moore, Angel Garcia de la Garza, David R. Roalf, Adon Rosen, Scott Lorch, Kosha Ruparel, Russell T. Shinohara, Christos Davatzikos, Ruben C. Gur, Raquel E. Gur, and Theodore D. Satterthwaite. A Dimensional Measure of Prematurity is Associated With Structural Brain Network Abnormalities in Children, Adolescents, and Young Adults. Neuropsychompharmachology 43 (2017): S304-S305

  • Yin Chen, Aristeidis Sotiras, Ilya Nasrallah, Rizwan Akhtar, Jacqueline Rick, Alice Chen-Plotkin, John Trojanowski, Daniel Weintraub, Christos Davatzikos, and Jacob Dubroff. Non-negative matrix factorization evaluation of patterns of brain Aβ deposition in Parkinson’s disease, Alzheimer’s disease and normal controls on [18F]florbetapir PET. Journal of Nuclear Medicine 59 (2018): 484-484

  • Robert Jirsaraie, Sage Rush, Antonia Kaczkurkin, Adon Rosen, Aristeidis Sotiras, Rastko Ciric, Phillip Cook, Mark Elliott, David Roalf, Danielle Bassett, Russell Shinohara, Ellen Leibenluft, Christos Davatzikos, Daniel Wolf, and Theodore Satterthwaite. Accelerated Cortical Thinning Within Structural Brain Networks is Associated With Irritability in Youth. Biological Psychiatry 83, no. 9 (2018): S402-S402

  • Sun, D., Adduru, V. R., Phillips, R. D., Bouchard, H. C., Sotiras, A., Michael, A. M., ... & Morey, R. A. (2021). Alcohol Use Disrupts Age-Appropriate Cortical Thinning in Adolescence: A Data Driven Approach. bioRxiv.

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非负矩阵分解(Non-negative Matrix Factorization,简称NMF)是一种常用的矩阵分解方法,它可以将一个非负矩阵分解为两个非负矩阵的乘积。NMF在数据挖掘、图像处理、文本挖掘等领域有广泛的应用。 在Matlab中,可以使用NMF工具箱来进行非负矩阵分解NMF工具箱提供了一系列函数,可以方便地进行NMF的计算和分析。 首先,你需要安装NMF工具箱。可以在Matlab的官方网站或者第三方网站上找到并下载安装包。安装完成后,你可以通过以下步骤来使用NMF工具箱进行非负矩阵分解: 1. 导入数据:将你要进行NMF非负矩阵导入到Matlab中,可以使用Matlab提供的函数如`load`或者`csvread`来导入数据。 2. 调用NMF函数:使用NMF工具箱提供的函数来进行非负矩阵分解。常用的函数包括`nmf`和`nnmf`。这些函数通常需要指定分解的维度、迭代次数等参数。 3. 获取分解结果:根据函数的返回值,可以获取到分解后的两个非负矩阵。这两个矩阵可以表示原始矩阵的近似或者特征。 4. 进行后续分析:根据需要,你可以对分解后的矩阵进行进一步的分析和处理。例如,可以计算重构误差、可视化分解结果等。 除了NMF工具箱,Matlab还提供了其他一些函数和工具,可以用于非负矩阵分解。例如,`nnls`函数可以用于非负最小二乘问题的求解,`nmfnnls`函数可以用于非负矩阵分解的迭代求解。 希望以上介绍对你有帮助!如果你有更多关于NMF或者Matlab的问题,请继续提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值