scButterfly：单细胞跨模态翻译-CSDN博客

本文链接：https://blog.csdn.net/qq_40943760/article/details/139330099

技术限制导致了高噪声的多模态数据。尽管已经提出了计算方法来跨模态翻译单细胞数据，但是这些方法的泛化性仍然受到制约。scButterfly是一种基于双重对齐变分自编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集进行全面的实验，证明了scButterfly在保留细胞异质性、同时翻译不同上下文的数据集以及揭示特定细胞类型的生物学见解方面优于基线方法。此外，scButterfly还可以推广到未配对数据训练、扰动-响应分析，连续翻译等。

来自：scButterfly: a versatile single-cell crossmodality translation method via dualaligned variational autoencoders

方法概述

fig1
上图为模型概述，以转录组和染色质图谱之间的翻译为例说明。

a. scButterfly使用相应的常规策略预处理每种模态的数据，以模态特定的方式预训练编码器和解码器，并基于预训练参数对配对的多模态数据进行训练。

b. 基本的scButterfly模型（scButterfly-B）包括两个编码器，用于将预处理的数据投影到模态特定的潜在空间；一个翻译器，用于在不同模态之间进行翻译，并利用潜在空间中的多变量高斯分布在每个模态内进行映射；两个模态特定的判别器，用于区分翻译前后的潜在细胞嵌入，并实现对抗训练；以及两个解码器，用于使用翻译器翻译或映射的嵌入重建每个模态的原始高维细胞表示。作者为编码器引入了一种掩码策略，以减轻dropout事件的噪音影响，并修剪染色质图谱的编码器和解码器的染色体间连接，以减轻计算负担，并专注于染色体内的生物模式。

c. scButterfly的数据增强策略，适用于训练集有细胞类型标签的情景。作者通过随机配对同一类型细胞的转录组图谱和染色质图谱生成样本，得到的变体称为scButterfly-T（Type）。

d. scButterfly的数据增强策略，适用于训练集没有注释的更通用情景。作者进行综合分析以对训练集中的细胞进行聚类，并通过根据聚类标签随机配对生成样本，得到的变体称为scButterfly-C（Cluster）。

结果

保持细胞异质性的同时跨模态翻译

首先使用骨髓单核细胞的广泛配对RNA和ATAC-seq数据（称为BMMC数据集）作为概念验证，展示scButterfly的有效性。BMMC数据集作为一个综合的多模态基准数据集，包含来自4个site和10个不同供体的13个batch中的超过69,000个细胞。作者进行了五折交叉验证实验，通过将所有细胞随机分成五折，并迭代地使用训练模型将每折中的细胞染色质图谱翻译为转录组图谱，反之亦然。为了测试翻译后的图谱是否包含生物学上可解释的细胞异质性，作者通过各种下游分析任务（即降维、细胞聚类、差异表达和可及性分析等）