多模态弱监督学习识别细胞图谱的疾病状态变化

对健康和病变组织不同阶段的单细胞样本进行多模态分析,可以识别疾病特异性细胞及其分子特征,并有助于患者分类。MultiMIL是一个新的弱监督多模态模型,旨在通过患者分类任务考虑表型特异性细胞。MultiMIL有效地整合了多个单细胞模态,即使它们只是部分配对,并为下游分析(如表型预测和细胞优先排序)提供了良好的细胞表示。使用多实例学习方法,MultiMIL将cell-level的测量结果聚合到sample-level的表示中,并通过基于注意力的score来识别疾病特异性的细胞状态。MultiMIL可以在blood和lung样本中准确识别细胞的疾病相关状态,并实现更好的患者分类准确率。MultiMIL将会增强人们对疾病机制的理解,并为靶向治疗提供信息。

来自:Multimodal weakly supervised learning to identify disease-specific changes in single-cell atlases

背景概述

大规模单细胞数据集可以促进疾病的诊断和治疗研究,对于诊断,多模态数据集允许精确识别特定疾病特有的细胞状态变化。研究人员可以通过分析单个细胞及其相互作用来识别指定疾病状态的生物标志物和细胞行为。这种级别的粒度不仅提高了诊断的准确性,而且有助于疾病的早期发现,这对有效治疗至关重要。对于治疗,了解疾病特异性细胞状态可以定制更有针对性和个性化的治疗策略。通过识别疾病中被破坏的细胞机制和途径,研究人员可以开发针对这些感兴趣区域的治疗方法,最大限度地减少副作用并提高治疗效果。

以可解释的方式将细胞水平与患者水平的表型联系起来,使研究人员能够了解驱动疾病表型的潜在细胞过程和机制。目前已经开发了几种计算方法来预测细胞水平[3-5]和患者水平[8]的疾病表型。同时,其他方法优先考虑与参考表型(例如,健康与患病)相比,表现出差异转录组信号的细胞。然而,这些方法是有限的,因为它们仅基于转录组建模单细胞数据,不能处理多模态数据集。另外,尽管它们提供了患者水平的预测,但它们未能有效地将这些预测与驱动疾病表型的细胞过程联系起来。这些方法也难以系统地模拟跨样本的批次效应,这对于准确预测表型是必要的。最近的一篇论文介绍了MrVI,这是一种可以处理批次效应的模型,但它严重依赖于使用VAEs的反事实生成建模,并且没有使用患者注释。

为了克服这些限制,提出了multiMIL,这是一种用于单细胞多组学中表型预测和差异细胞优先排序的多模态多实例学习方法。MultiMIL采用多组学数据整合策略,提供细胞的全面多模态表示。这些表示被输入到下游预测和优先级模块中。该模型利用弱监督学习的进展,特别是多实例学习(MIL),通过注意力机制优先考虑表型特异性细胞,从单个细胞中了解患者状况。multiMIL还可以使用来自图谱集或基础模型的潜在表示,从而增强其灵活性和实用性。

作者展示了multiMIL的应用程序,实现了跨各种数据集的高效多模态数据整合,这是学习鲁棒表示所必需的。使用这些表征,包括预训练的表征,通过分析人类外周血单核细胞和人类肺细胞图谱,展示了对unseen患者的表型预测和疾病特异性细胞状态的优先级。此外,作者进一步证明了用multiMIL识别的疾病状态如何有助于发现与疾病相关的新基因。

参考文献

[3]Phenotype prediction from single-cell RNA-seq data using attention-based neural networks
[4]Disease state prediction from single-cell data using graph attention networks
[5]Precise identification of cell states altered in disease using healthy single-cell references
[8]Population-level integration of single-cell datasets enables multi-scale analysis across samples
[39]Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data
[40]Single-cell analysis of two severe COVID-19 patients reveals a monocyte-associated and tocilizumab-responding cytokine storm
[41]Elevated Calprotectin and Abnormal Myeloid Cell Subsets Discriminate Severe from Mild COVID-19
[42]Single-cell multi-omics analysis of the immune response in COVID-19
[43]An integrated cell atlas of the lung in health and disease
[44]SPP1/MERTK-expressing macrophages in idiopathic pulmonary fibrosis
[45]Single-cell RNA-seq reveals ectopic and aberrant lung-resident cell populations in idiopathic pulmonary fibrosis
[46]Single-cell transcriptomic analysis of human lung provides insights into the pathobiology of pulmonary fibrosis

学习细胞与患者表示以优先考虑表型特异性的细胞

MultiMIL是一种基于深度学习的模型,它可以整合多模态单细胞数据,并从这些单细胞测量中预测样本level的表型。MultiMIL的模型由两个子模块组成:一个是学习单细胞数据的低维潜在表示的变分自编码器,另一个是学习从低维潜在表示预测样本水平表型的分类头(图1a,b)。从多实例学习(MIL)方法中获得灵感,将受试者建模为bag,将细胞建模为bag的实例。分类标签只在bag级别上是已知的,而在实例级别上是未知的,目标是识别与bag标签相关的实例。

自动编码器模块被实现为编码器-解码器对,其中每对自编码器对应于数据中存在的模态(图1a)。编码器输出相应单模态边际分布的参数,并使用专家乘积(Product of Experts, PoE)对潜在空间中的联合分布建模。PoE分布保留了单模态边际分布的唯一和共享信息。PoE方法还允许multiMIL整合配对以及部分重叠的数据(即,在部分数据中缺少一种或多种模态的测量)。此外,可以将离散和连续协变量(例如batch)纳入模型,以获得从指定协变量中解耦的潜在表示(见方法)。

分类头由带注意力机制的MIL聚合器和前馈分类器网络组成。MIL模块利用注意力pooling将细胞级嵌入聚合成一个包嵌入。在训练过程中,模型学习到一个袋子中每个细胞 i i i的注意力权重 α i α_i αi,然后将细胞嵌入 z i z_i zi聚集到一个袋子表示 z b a g z_{bag} zbag(加权 ∑ i α i z i \sum_i α_i z_i iαizi)。然后将 z b a g z_{bag} zbag输入到预测条件标签的前馈网络中。最终,感兴趣的是将具有多种疾病的新患者映射到图谱上,并预测这些患者的病情。当映射新一批数据时,只微调特定于该批数据的一小部分模型参数,与从头训练相比,允许更快更有效的训练

fig1

  • 图1:MultiMIL支持多模态整合,可解释的表型预测。a.multiMIL接受具有不同表型的bag样本中的配对或部分重叠的单细胞多模态数据,并由配对的编码器和解码器组成,其中每对自编码器对应于一种模态。每个编码器为每个细胞输出单模态表示,并且从单模态表示计算联合细胞表示。然后将联合潜在表示送到解码器中以重建输入数据。来自相同样本的细胞与MIL注意力pooling层相结合,其中细胞的权重是通过注意力机制学习的,样本表示被计算为细胞表示的加权和。样本表示最后被输入到分类器网络中。b.multiMIL的关键用法是将配对和部分重叠的数据整合为参考图谱(顶部),将查询样本映射到参考图谱(中间),通过学习到的注意力权重识别疾病相关的细胞状态,以及构建具有疾病信息的患者表示(底部)。

MultiMIL提供了可解释的注意权重的方法(图1b)。首先,特定细胞的权重越高,表示该细胞对预测越重要。学习每个细胞的分数使我们能够通过选择注意力得分高的细胞来识别和分析与特定条件相关的细胞状态。此外,还可以通过对样本内的细胞进行加权平均,获得样本表示。这些受试者在低维空间中的表示是从单细胞测量数据中学习的。

该模型在mini batch上进行训练。使用最大平均差异损失(MMD)来纠正批次效应(参见方法)。由于模型的小批量和深度学习特性,multiMIL的训练速度很快。用户可以依次训练自动编码器模块和分类头,或者单独训练某一个,或以端到端的方式,这取决于是否需要从头开始整合数据。这种适应性使multiMIL适用于广泛的应用,并允许它无缝集成到现有的分析工作流程中。作者设想multiMIL是一个多任务工具,用于多模态整合、新样本的查询映射、查询受试者的疾病预测标签和疾病相关细胞状态的识别。

reference构建和query映射到reference

配对测量技术使两种模态的联合分析成为可能,但这也提出了一个独特的挑战:需要以一种既保留模态间共享信息又保留模态内独特信息的方式进行建模。主流方法都是学习每个细胞的联合低维表示。由于使用PoE方法对联合状态进行建模,MultiMIL不仅能够整合完全配对的数据,还能够整合部分重叠的测量,例如成对的RNA-ATAC数据集和成对的RNA-ADT数据集 (图2a)。MultiMIL的独特特性是单模态和多模态数据的查询映射,它允许将任何模态组合映射到现有reference。

对于实验,首先将multiMIL与现有的配对整合方法进行比较,然后演示三模态参考构建和查询映射。

配对整合

作者在两个CITE-seq数据集(NeurIPS 2021 CITE-seq,Hao)和两个Multiome数据集(NeurIPS 2021 multiome,10xMultiome)上,对目前最先进的配对整合方法以及MultiMIL的性能进行了测试。Hao数据集包括来自参加HIV疫苗试验的8个受试者的PBMC。NeurIPS数据集包含来自10个健康受试者的骨髓单核细胞,10xMultiome数据集包含来自一个健康受试者的骨髓单核细胞(10xMultiome不具有批次效应)。作者在所有四个数据集上比较了MultiMIL与MOFA+、Seurat v4 WNN,在CITE-seq数据集上比较了totalVI,在10xMultiome数据集上比较了multiVI。

为了定量评估结果,作者计算了多模态整合的scIB指标。该指标兼顾了生物信号保护和批次效应去除。MultiMIL在两个配对RNA-ATAC数据集上获得了最高的overall score,而在CITE-seq数据集上分别是得分第一和第二(图2b)。TotalVI和Seurat WNN在所有数据集上都获得了高分,而MultiVI的得分取决于数据集。MOFA+未能去除原始数据中存在的批次效应,导致批次效应去除分数较低。
fig2ab

  • 图2a:配对整合、三模态参考构建(整合不配对三模态)和查询映射的图示。配对整合基准在Multiome和CITE-seq数据集上运行。三模态参考由10xMultiome (RNA-ATAC) 和CITE-seq (RNA-ADT)数据组成,查询由multiome、CITE-seq和单模态scATAC-seq和scRNA-seq组成。
  • 图2b:两个CITE-seq (RNA-ADT)和两个Multiome (RNA-ATAC)数据集的overall score柱状图,比较了MultiMIL、totalVI、Seurat’s WNN、MOFA+和multiVI。

不配对整合-三模态整合

为了证明MultiMIL进行马赛克整合(不配对整合)的能力,作者整合了来自NeurIPS 2021 CITE-seq和NeurIPS 2021 Multiome数据集的Sites 1和site 2。作者将MultiMIL与GLUE、MultiMAP和scMoMaT进行了比较。在数据集之间进行细胞类型协调后,计算了潜在空间上测试scIB。两个ASW分数用于批次效应去除:Batch ASW 和 Modality ASW。这种批次和模态混合的双重评估使我们能够同时在单个批次的更细尺度和模态的更粗尺度上测试gaps的消除情况

在不配对整合任务中,multiMIL得分第一,GLUE得分第二。这两种方法的学习表征的umap见图2d。与GLUE相比,MultiMIL获得了稍高的modality ASW。scMoMaT在scIB指标上得分第四。

fig2d

  • 图2d:从两个表现最好的模型(左边是MultiMIL,右边是配对GLUE)获得的参考潜在空间的umap,按细胞类型和模态着色。MultiMIL中,NK细胞被更好地整合。

query映射

当MultiMIL在多模态数据上进行训练建模reference后,模型支持单模态和多模态的query映射,其中单模态query的模态可以是来自多模态参考的任何单个模态。在建立了上述图谱之后,作者将单模态查询(比如scRNA-seq技术,snRNA-seq和scATAC-seq)和多模态查询(CITE-seq和Multiome)映射到reference上(图2e)。

fig2e

  • 图2e:将不同query映射到三模态reference上。

作者使用参考和查询作为两个批次来计算scIB,以评估映射的表现。multiMIL成功地映射了所有的查询,获得了较高的scIB分数。作者还训练了一个随机森林分类器,将细胞类型从参考转移到查询,并计算了预测精度。在细胞类型注释任务上,CITE-seq和scRNA作为query数据效果最好,而映射scATAC-seq似乎是最具挑战性的。

预测疾病状态,识别驱动疾病过程的细胞状态

在前面的部分中,作者描述了multiMIL的整合模块如何执行多模态整合和query到reference的映射。接下来,作者同时对多模态单细胞嵌入和样本水平的协变量(如disease)进行建模。为了验证从单细胞数据预测样本水平疾病标签的方法,使用了CITE-seq外周血单核细胞(PBMC)数据集 [42]。这个大规模数据集由130个健康和患病样本组成,并提供有关COVID-19疾病过程的元数据。首先,将来自所有数据点的RNA和ADT测量结果与MultiMIL整合,以获得低维数据表示。然后,将数据划分为健康、轻度和重度COVID-19样本 (见方法),并训练MultiMIL的分类器模块来评估该多分类任务的预测性能,并评估细胞注意力评分的可解释性 (图3a)。

对于MultiMIL,预测任务可以表述为分类任务或回归任务,因为我们需要对从健康到轻度到严重阶段的进展进行建模。作者将模型与几个基线模型进行了比较,在5倍交叉验证实验中,multiMIL优于所有基线 (图3b),回归模型的准确率为75%,分类模型的准确率为72%。

基线预测模型包括随机森林、前馈神经网络和多分类逻辑回归。利用单细胞数据进行表型预测的方法通常依赖于bulk数据,代表方法:DEGAS和Scissor。由于MIL模型通常介于对实例(即单细胞)级别进行预测的模型和对包(即bulk)级别进行预测的模型之间,因此基线还可以包括细胞级别的基线。

fig3ab

  • 图3a:使用CITE-seq (配对RNA和ADT)对pbmc进行测序,与MultiMIL的整合模块进行整合,将健康、轻度和重度COVID-19样本作为子集,并作为训练MultiMIL分类器网络的输入。
  • 图3b:疾病预测任务中 5-fold 交叉验证运行的平均准确度和标准差条形图。

作者在一个二元分类任务中测试了MultiMIL,预测 healthy vs. COVID-19,在一个更具挑战性的多类别任务中,预测健康和COVID-19的所有阶段

fig3c

  • 图3c:整合后的umap,按细胞类型(左)、细胞注意力得分(中)和疾病状态(右)着色。髓系-myeloid compartment (即CD14、CD16单核细胞和树突状细胞) 和浆母细胞-plasmablasts 具有较高的注意评分。

在分析患病样本时,感兴趣的是识别受疾病影响的细胞状态。通过利用细胞注意力模块,模型为每个细胞学习一个权重,其中较高的权重直接对应与条件相关的细胞状态。只考虑每种疾病得分最高的10%的细胞,因为这些细胞与疾病的关系最密切。在图3c中观察到,注意力得分最高的细胞类型是单核细胞、树突状细胞(dc)、浆母细胞和血小板。检查髓系-myeloid compartment (图3d),注意到CD14单核细胞从健康和轻度到严重的轨迹,表明不同阶段之间表达水平的平均变化。同样,还发现了不同的健康和轻度CD16单核细胞群体,证实了通过MultiMIL获得的信号与先前报道的单核细胞随着COVID-19进展而发生强烈变化的研究一致[40,41]。

fig3de

  • 图3d:myeloid compartment的UMAP显示健康、轻度和重度COVID-19细胞,每种情况的注意力得分最高为10%。
  • 图3e:条形图显示了从健康到严重的COVID-19组成变化最大的前五种细胞类型,包括plasmablast。

由于整个plasmablast簇的注意力得分很高,作者假设这可能与成分差异有关。因此,下一步研究哪些细胞类型在不同条件下具有最大的成分变化。可以发现,plasmablast和血小板-platelet位于前五名 (图3e),因此,MultiMIL鉴定出这两种细胞类型的组成变化是疾病进展的指示,[42]也有报道。

关于本节实验的额外分析,参考补充图9,主要是关于MultiMIL的鲁棒性。
supfig9a

  • 补充图9a:umap显示在5-fold交叉验证运行中学习到的细胞注意力得分。

supfig9b

  • 补充图9b:堆叠条形图显示了五次交叉验证运行中注意力得分最高的前10%的所有细胞组成子集中的细胞类型的分布。

supfig9d

  • 补充图9d:通过平均细胞嵌入(左)、注意力加权细胞嵌入(中)以及平均前10%注意力分数的细胞嵌入(右)获得的样本表示的umap。为了表明不同的样本embedding聚合策略都能准确预测。

识别肺部中IPF相关的巨噬细胞亚群

单细胞图谱可以包含数百个受试者,这对了解疾病变异和潜在的治疗靶点至关重要。作者演示了如何将MultiMIL与现有的单细胞图谱结合使用。由于multiMIL的整合模块和预测模块可以分开训练,我们可以直接在图谱嵌入上训练预测模块。人肺细胞图谱(Human lung cell atlas, HLCA)[43]由健康和患病受试者整合到一个共同的空间中。案例中调查了特发性肺纤维化(IPF),并比较了患病和健康样本。

从图谱中选择健康和IPF个体,并在5-fold交叉验证设置中训练MultiMIL的预测模块 (图4a)。在预测任务上,multiMIL优于其他基线 (图4b)。注意到其他模型也达到了很高的准确率(>80%)。如果用户只对二分类任务感兴趣,而对可解释性方面不感兴趣,那么均值嵌入基线提供了令人满意的性能(图4b)。
fig4ab

  • 图4a:来自HLCA的预训练嵌入被整合,并采样子集健康和IPF样本,用于在二元分类任务上训练MultiMIL的分类模块。
  • 图4b:疾病预测表现。

对于可解释,利用学习到的细胞注意力得分来分析模型学习到的与疾病相关的细胞状态。注意到巨噬细胞的一个亚群得分最高 (图4c),这是因为,MultiMIL识别了IPF特异性巨噬细胞中的一个亚群[5,44]。首先作者假设该亚群与先前研究报道的纤维化巨噬细胞群(profibrotic macrophage populations,标志物为SPP1)相对应 [45,46]。为了证实这一点,根据[45]中引入的profibrosis特征计算profibrosis评分 (图4c)。从IPF受试者中选择巨噬细胞,结果显示,注意力评分最高的细胞(前10%)比所有IPF巨噬细胞的纤维化评分明显更高 (图4d)。MultiMIL还鉴定出KRT17+为标志物的 Basal 细胞亚群,补充图10b),该亚群与IPF相关[5,47]。

fig4c

  • 图4c:HLCA空间的UMAPs按细胞类型(上)、条件(左下)、巨噬细胞中计算的纤维化score(中下)和细胞注意力score(右下)着色。巨噬细胞亚群具有较高的注意力score,因此进一步研究这些细胞。

fig4d

  • 图4d:小提琴图显示了高注意力巨噬细胞和来自IPF受试者的所有巨噬细胞的纤维化评分。

supfig10

  • 补充图10a:巨噬细胞的UMAPs,通过细胞注意力、SSP1基因表达和纤维化特征评分着色。
  • 补充图10b:Basal细胞的UMAPs,通过细胞注意力和KRT17的表达着色。

高注意力的细胞也可以用于发现新的基因特征或扩展现有的特征。作者展示了如何仅使用注意力score来识别IPF相关巨噬细胞亚群的基因特征,而不依赖于先前的知识。运行edgeR寻找权重最高的前10%的IPF巨噬细胞与所有IPF巨噬细胞之间的差异表达基因,鉴定出16个显著上调的基因。将这16个基因与来自纤维化特征的基因进行比较,发现有6个重叠基因 (图4e)。
fig4e

  • 图4e:维恩图显示了促纤维化特征中的基因,与来自IPF受试者的所有巨噬细胞相比,高注意力的巨噬细胞中上调的基因与受试者的纤维化特征有很大重叠。

对于不在交集内,并且仅从MultiMIL高注意力组中鉴定出的基因包括SLAMF7,该基因先前被报道在多微生物脓毒症和COVID-19期间调节肺巨噬细胞的免疫反应[48,49]。其他基因比如CCL22 [50,51]。TNFSF14 会促进心脏[52]、肺[53]和肾脏[54]的纤维化。图4g中给出了这些基因的表达情况:
fig4g

  • 图4g:表达SLAMF7、CCL22和TNFSF14的UMAP。

IPF的机制是细胞外基质 (ECM,extracellular matrix) 的过度积累以及ECM产生和降解之间的平衡被破坏,其中基质金属蛋白酶 (MMP,matrix metalloproteinase) 和金属蛋白酶组织抑制剂 (TIMP) 系统在巨噬细胞中也起着重要作用[55]。作者发现TIMP3, MMP7和MMP9被报道为纤维化特征的一部分,并在DE测试中被识别出来。还发现了其他几个基因,即CCND1、CRABP2、SPON2、SPINK1、CKB和MMP2,都与ECM重塑有关[56-61]。我们还对高注意力组中上调的16个基因进行了基因本体(Gene Ontology, GO)富集分析,发现大多数显著富集的基因都与ECM相关 (图4f)。

fig4f

  • 图4f:高注意力巨噬细胞中表达上调基因的富集分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值