多模态弱监督学习识别细胞图谱的疾病状态变化

对健康和病变组织不同阶段的单细胞样本进行多模态分析,可以识别疾病特异性细胞及其分子特征,并有助于患者分类。MultiMIL是一个新的弱监督多模态模型,旨在通过患者分类任务考虑表型特异性细胞。MultiMIL有效地整合了多个单细胞模态,即使它们只是部分配对,并为下游分析(如表型预测和细胞优先排序)提供了良好的细胞表示。使用多实例学习方法,MultiMIL将cell-level的测量结果聚合到sample-level的表示中,并通过基于注意力的score来识别疾病特异性的细胞状态。MultiMIL可以在blood和lung样本中准确识别细胞的疾病相关状态,并实现更好的患者分类准确率。MultiMIL将会增强人们对疾病机制的理解,并为靶向治疗提供信息。

来自:Multimodal weakly supervised learning to identify disease-specific changes in single-cell atlases

背景概述

大规模单细胞数据集可以促进疾病的诊断和治疗研究,对于诊断,多模态数据集允许精确识别特定疾病特有的细胞状态变化。研究人员可以通过分析单个细胞及其相互作用来识别指定疾病状态的生物标志物和细胞行为。这种级别的粒度不仅提高了诊断的准确性,而且有助于疾病的早期发现,这对有效治疗至关重要。对于治疗,了解疾病特异性细胞状态可以定制更有针对性和个性化的治疗策略。通过识别疾病中被破坏的细胞机制和途径,研究人员可以开发针对这些感兴趣区域的治疗方法,最大限度地减少副作用并提高治疗效果。

以可解释的方式将细胞水平与患者水平的表型联系起来,使研究人员能够了解驱动疾病表型的潜在细胞过程和机制。目前已经开发了几种计算方法来预测细胞水平[3-5]和患者水平[8]的疾病表型。同时,其他方法优先考虑与参考表型(例如,健康与患病)相比,表现出差异转录组信号的细胞。然而,这些方法是有限的,因为它们仅基于转录组建模单细胞数据,不能处理多模态数据集。另外,尽管它们提供了患者水平的预测,但它们未能有效地将这些预测与驱动疾病表型的细胞过程联系起来。这些方法也难以系统地模拟跨样本的批次效应,这对于准确预测表型是必要的。最近的一篇论文介绍了MrVI,这是一种可以处理批次效应的模型,但它严重依赖于使用VAEs的反事实生成建模,并且没有使用患者注释。

为了克服这些限制,提出了multiMIL,这是一种用于单细胞多组学中表型预测和差异细胞优先排序的多模态多实例学习方法。MultiMIL采用多组学数据整合策略,提供细胞的全面多模态表示。这些表示被输入到下游预测和优先级模块中。该模型利用弱监督学习的进展,特别是多实例学习(MIL),通过注意力机制优先考虑表型特异性细胞,从单个细胞中了解患者状况。multiMIL还可以使用来自图谱集或基础模型的潜在表示,从而增强其灵活性和实用性。

作者展示了multiMIL的应用程序,实现了跨各种数据集的高效多模态数据整合,这是学习鲁棒表示所必需的。使用这些表征,包括预训练的表征,通过分析人类外周血单核细胞和人类肺细胞图谱,展示了对unseen患者的表型预测和疾病特异性细胞状态的优先级。此外,作者进一步证明了用multiMIL识别的疾病状态如何有助于发现与疾病相关的新基因。

参考文献

[3]Phenotype prediction from single-cell RNA-seq data using attention-based neural networks
[4]Disease state prediction from single-cell data using graph attention networks
[5]Precise identification of cell states altered in disease using healthy single-cell references
[8]Population-level integration of single-cell datasets enables multi-scale analysis across samples
[39]Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data
[40]Single-cell analysis of two severe COVID-19 patients reveals a monocyte-associated and tocilizumab-responding cytokine storm
[41]Elevated Calprotectin and Abnormal Myeloid Cell Subsets Discriminate Severe from Mild COVID-19
[42]Single-cell multi-omics analysis of the immune response in COVID-19
[43]An integrated cell atlas of the lung in health and disease
[44]SPP1/MERTK-expressing macrophages in idiopathic pulmonary fibrosis
[45]Single-cell RNA-seq reveals ectopic and aberrant lung-resident cell populations in idiopathic pulmonary fibrosis
[46]Single-cell transcriptomic analysis of human lung provides insights into the pathobiology of pulmonary fibrosis

学习细胞与患者表示以优先考虑表型特异性的细胞

MultiMIL是一种基于深度学习的模型,它可以整合多模态单细胞数据,并从这些单细胞测量中预测样本level的表型。MultiMIL的模型由两个子模块组成:一个是学习单细胞数据的低维潜在表示的变分自编码器,另一个是学习从低维潜在表示预测样本水平表型的分类头(图1a,b)。从多实例学习(MIL)方法中获得灵感,将受试者建模为bag,将细胞建模为bag的实例。分类标签只在bag级别上是已知的,而在实例级别上是未知的,目标是识别与bag标签相关的实例。

自动编码器模块被实现为编码器-解码器对,其中每对自编码器对应于数据中存在的模态(图1a)。编码器输出相应单模态边际分布的参数,并使用专家乘积(Product of Experts, PoE)对潜在空间中的联合分布建模。PoE分布保留了单模态边际分布的唯一和共享信息。PoE方法还允许multiMIL整合配对以及部分重叠的数据(即,在部分数据中缺少一种或多种模态的测量)。此外,可以将离散和连续协变量(例如batch)纳入模型,以获得从指定协变量中解耦的潜在表示(见方法)。

分类头由带注意力机制的MIL聚合器和前馈分类器网络组成。MIL模块利用注意力pooling将细胞级嵌入聚合成一个包嵌入。在训练过程中,模型学习到一个袋子中每个细胞 i i i的注意力权重 α i α_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值