JointVAE用于单细胞多模态插补和embedding

JAMIE是一种用于单细胞多模态数据的联合自编码器模型,旨在解决数据生成成本高和dropout问题。通过学习每个模态的潜在嵌入并聚合跨模态信息,JAMIE能够进行跨模态插补和解释性分析。在模拟数据和真实数据集如小鼠神经元基因表达和电生理数据上,JAMIE展示出优秀的插补性能和细胞类型识别能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

单细胞多模态数据集测量了单个细胞的各种特征,从而能够深入了解细胞和分子机制。然而,多模态数据生成仍然成本高昂且具有挑战性,并且数据经常存在dropout。为了解决这些问题,作者开发了JAMIE。JAMIE获取单细胞多模态数据,这些数据可能具有跨模态部分匹配的样本。变分自编码器学习每个模态的潜在嵌入。然后,在重建之前,将来自匹配样本的跨模态嵌入聚合以识别联合的跨模态embedding。为了进行跨模态插补,可以将一种模态的潜在嵌入与另一种模态的解码器一起使用。对于可解释性,Shapley值根据跨模态输入和已知标签样本的输入特征进行优先级排序。

来自:Joint variational autoencoders for multimodal imputation and embedding

背景

以细胞为基础理解分子机制可以更深入地洞察细胞功能、发育和疾病进展,但目前仍然难以实现这个目标。为此,最近出现了单细胞多模态数据集,通过使用新的测序技术测量单个细胞的各种特征,并确定细胞功能(例如,细胞类型)。因此,整合单细胞多模态数据集可以发现跨模态关系,显著帮助我们理解贡献于细胞类型和疾病的生物学机制。目前研究人员已经开发了许多方法来整合多模态数据集,以改进对细胞类型的预测(参见图1a)。虽然这些方法主要关注预测,但其基本思想可以扩展到预测分布在不同模态中的数据,即下面所称的跨模态插值(参见图1b)。跨模态插值随着深度学习的发展,已经得到了越来越多的探索。此外,自编码器允许灵活定义潜在空间的形式。现有方法主要专注于常见的多组学数据,如scRNA-seq + scATAC-seq,并且不考虑来自其他单细胞模态(例如电生理)的高度非线性特征。此外,它们要求完全一致的多模态数据(匹配的细胞),这限制了对缺失模态数据的处理能力(比如UnitedNet)。

fig1

  • 图1:多模态数据整合与插补的困难。
  • a:使用多模态数据来有效地预测缺失的表型(例如,来自多模态单细胞数据的细胞类型)是困难的,因为不同模态具有异质特征。识别跨模态的相似潜在空间可以进行跨模态比较,机器学习可用于发现相似的跨模态潜在空间,并实现比较和表型预测。
  • b:某些模态测量成本过高,但其能对生物学机制提供重要的见解。例如,用于细胞型表观基因组学的scATAC-seq数据是昂贵的,单细胞分辨率的ephys数据很难产生。通过使用机器学习从一种模态推导另一种模态可以缓解这些限制。

方法

JAMIE采用联合自编码器模型进行数据整合和插补(图2a)。对于输入,JAMIE接受两个模态的数据矩阵 X 和 Y。可选地,当两个模态的样本部分对应时(例如,来自相同单个细胞),可以提供额外的对应关系矩阵 F。JAMIE中的编码器将 X 和 Y 转换为潜在空间中的特征,并利用可用的对应信息进行聚合。JAMIE中的解码器预测原始模态的重构 X 和 Y。在训练完JAMIE模型后,可以依次使用其用于模态 X 的编码器和用于模态 Y 的解码器进行从一种模态到另一种模态的插补(图2b)。此外,JAMIE模型的潜在空间可以用于表型预测(细胞分类)。使用Shapley加法解释值(Shapley additive explanation values)等重要性评估方法,可以对用于插补的多模态特征进行排序(图2c)。
fig2

  • 图2:JAMIE使用了一种新的潜在空间聚合技术来为每个模态生成相似的潜在空间。
  • a:数据矩阵 X X X Y Y Y被输入编码器 f E X ( ⋅ ) f^{X}_{E}(\cdot) fEX() f E Y ( ⋅ ) f^{Y}_{E}(\cdot) fEY(),其输出 μ i X , σ i X \mu_{i}^{X},\sigma_{i}^{X} μiX,σiX(对应模态 X X X的样本 i i i)和 μ j Y , σ j Y \mu_{j}^{Y},\sigma_{j}^{Y} μjY,σjY(对应模态 Y Y Y的样本 j j j)。然后, L i X ∼ N ( μ i X , σ i X ) L_{i}^{X}\sim N(\mu_{i}^{X},\sigma_{i}^{X}) LiXN(μiX,σiX) L j Y ∼ N ( μ j Y , σ j Y ) L_{j}^{Y}\sim N(\mu_{j}^{Y},\sigma_{j}^{Y}) LjYN(μjY,σjY)为从隐空间中采样得到的隐表示。使用 F F F可以优化隐表示,得到 M X M^{X} MX M Y M^{Y} MY。最后,解码得到 X ~ = f D X ( M X ) \widetilde{X}=f^{X}_{D}(M^X) X =fDX(MX) Y ~ = f D Y ( M Y ) \widetilde{Y}=f^{Y}_{D}(M^Y) Y =fDY(MY)。隐表示 L X L^{X} LX L Y L^{Y} LY可以拼接在一起用于混合的细胞分类。
  • b:通过不同模态的编码器和解码器的耦合,训练后的模型可以重复用于跨模态的预测。
  • c:插补函数为 f ( x ) = f D Y ( L x ) = y f(x)=f^{Y}_{D}(L^{x})=y f(x)=fDY(Lx)=y x ∈ R d X x\in R^{d_{X}} xRdX y ∈ R d Y y\in R^{d_{Y}} yRdY,使用Shapley加性解释值进行评估,该值通过选择性地用背景掩盖输入特征向量来估计每个输入特征的贡献。符号 a 1 , a 2 a_1, a_2 a1,a2表示模态 X X X的特征,而符号 b 1 , b 2 b_1, b_2 b1,b2表示模态 Y Y Y的特征,期望值用 E E E表示。

关于 F ∈ R n X × n Y F\in R^{n_{X}\times n_{Y}} FRnX×nY得到 M X M^{X} MX M Y M^{Y} MY,可以执行聚合计算来组合已知对齐点的隐含表示: M X = ( L X + δ L Y F T ) ( d i a g ( 1 + δ F 1 n Y ) ) − 1 M^{X}=(L^{X}+\delta L^{Y}F^{T})(diag(1+\delta F 1_{n_{Y}}))^{-1} MX=(LX+δLYFT)(diag(1+δF1nY))1 M Y = ( L Y + δ − 1 L X F ) ( d i a g ( 1 + δ − 1 F T 1 n X ) ) − 1 M^{Y}=(L^{Y}+\delta^{-1} L^{X}F)(diag(1+\delta^{-1} F^{T} 1_{n_{X}}))^{-1} MY=(LY+δ1LXF)(diag(1+δ1FT1nX))1其中, 1 n X ∈ R n X 1_{n_{X}}\in R^{n_{X}} 1nXRnX 1 n Y ∈ R n Y 1_{n_{Y}}\in R^{n_{Y}} 1nYRnY为全1向量。 δ \delta δ表示聚合函数中模态 X X X和模态 Y Y Y之间的相对权重,我们在训练过程中学习 δ \delta δ。当 δ < 1 δ < 1 δ<1时,表示 X X X在聚合过程中的权重大于 Y Y Y,而 δ > 1 δ > 1 δ>1则表示相反。在蓝色向量的表述中, M X M^X MX M Y M^Y MY的构造如图2a所示。图2a显示了 F i k = 1 F_{ik} = 1 Fik=1的情况,第 i i i行和第 k k k列的所有其他条目为0,这导致只需要简单地平均 X X X的细胞 i i i Y Y Y的细胞 k k k的潜在特征向量。

结果

模拟多模态数据

作者首先用模拟的单细胞多模态数据测试。仿真数据由分支流形上的高斯分布采样生成(图3a)。可以发现,JAMIE中两种模态的潜在嵌入保留了分支结构,同时在任何一种模态中对齐相同类型的细胞,同时也保持了细胞类型的分离(图3b)。为了量化整合质量,作者使用了两个指标:标签转移精度(LTA-label transfer accuracy),它测量了跨模态表型(细胞类型)分离性,以及FOSCTTM,它测量了跨模态对齐性。更多细节可以在“Performance evaluation”中找到。对于细胞类型的分离,JAMIE (LTA 0.976, FOSCTTM 0.001)在LTA中优于NLMA (LTA 0.970, FOSCTTM 0.001),在LTA和FOSCTTM中优于UnionCom (LTA 0.947, FOSCTTM 0.079)(图3c)。
fig3

  • 图3:模拟的多模态数据。a、原始空间的UMAP,按细胞类型着色。b、JAMIE潜在空间的UMAP。c、JAMIE和最先进的细胞类型分离方法(CCA、LMA、MMD-MA、NLMA和UnionCom)。
  • d、模态1中测量和插补特征值之间相似性(1−JS距离)的累积分布。黑线表示跨细胞类型的平均相似性,而彩色线表示每个单独的细胞类型。
  • e、模态1中两个选择特征的测量值(顶部)和插补值(底部)。
  • f、JAMIE与基线KNN的模态1的插补性能,通过AUROC和correlation进行评估。

插补性能通过correlation和AUROC与基线方法进行比较,如图3f、4f和5f所示。每个点代表一个细胞,坐标轴是每种方法的性能。红线表示方法之间性能相等的空间。JAMIE整体在红线上,说明表现更好。


注意:这里说的模态插补,其实是在训练JAMIE模型后,使用其模态X的编码器和模态Y的解码器从一种模态推导到另一种模态,所以应该是模态预测。


小鼠神经元基因表达和电生理

下图展示了和上一节相同的评估流程:
fig4

人脑基因表达和染色质可及性

为了进一步研究新兴的单细胞多组学数据对基因调控的影响,作者将JAMIE应用于发育中的人类大脑皮层的基因表达和染色质可及性数据(通过10x Multiome进行的单细胞RNA测序和单细胞ATAC测序)(图5a)。染色质可及性数据测量开放染色质区域(OCRs)的可访问性,通过峰值信号进行测量。
fig5

作者使用JAMIE从OCR(峰值)中预测基因表达数据,反之亦然。插补的基因表达值在细胞类型之间保持一致。与插补数据相比,我们观察到测量数据的分布更广,可能导致与大量细胞类型的相对较高的JS距离。作者突出显示了两个具有特别高相似性的基因,其JS距离分别为0.260和0.332(图5e)。最后,发现JAMIE在从OCR填充基因表达数据方面显著优于基线(图5f)。

跨模态插补的可解释性

为了避免深度学习模型的黑箱性质,作者应用SHAP来优先考虑跨模态输入的特征。具体来说,这种分析给出了在一个模态中用于填充另一个模态给定特征的top特征(跨模态的关联)。

如图6a所示,JAMIE优先考虑了用于插补基因DENND1B的OCR(开放染色质区域),这是1号染色体上的一个与胃癌相关的基因。此外,将OCR保持在DENND1B位置附近通常会产生更好的插补性能。例如,删除距离DENND1B位置10 kb内的OCR会导致较低的相关性,而在染色体的其他位置则不然,这表明了JAMIE可能揭示了从染色质可及性到基因表达的基因组接近性的重要性。

fig6

  • 图6:特征优先级排序用于跨模态插补和嵌入。
  • a、左上图:JAMIE对DENND1B基因在结肠癌数据中进行插补。x轴是插补的基因表达数据的相关性。除了相同染色体和全基因组结果外,所有分布均具有显著不同的均值。右上图:JAMIE在小鼠视觉皮层数据中删除了选择的基因的LTA。左下图:JAMIE在发育中的大脑数据中删除了选择的基因的LTA。右下图:JAMIE在小鼠运动皮层数据中删除了选择的基因的LTA。对于每个情况,红线显示了没有染色质区域或基因删除的基准值。
  • b、小鼠视觉皮层Patch-seq数据中用于插补SST细胞#601810307的ephys特征fast_trough_t_long_square的选择重要基因的瀑布图。y轴上的值表示归一化基因表达量。图中的数字表示每个特征的SHAP值。红色和蓝色分别表示正SHAP值和负SHAP值。

对于发育中的大脑,JAMIE发现了几个重要的基因,包括MIA和BBC3(两者的LTA均为0.889),它们为JAMIE分离细胞类型提供了帮助。MIA与神经发育障碍的风险增加有关,BBC3与成人大脑细胞死亡有关。此外,JAMIE发现基因SST (LTA 0.423)是小鼠视觉皮层中的一个重要基因。在前200个优先基因中发现了许多细胞类型标记基因,并且在前400个基因中发现了所有可能的基因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值