SATURN：跨物种整合scRNA-seq数据集

最新推荐文章于 2024-09-28 10:15:00 发布

tzc_fly

最新推荐文章于 2024-09-28 10:15:00 发布

阅读量1.4k

点赞数 15

分类专栏：单细胞多组学分析文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40943760/article/details/140966803

版权

对来自不同生物的单细胞数据集的分析为揭示细胞表型的多样化的进化过程提供了前所未有的机会。然而，物种间的基因组差异限制了跨物种数据集的联合分析。SATURN是一种深度学习方法，用于学习通用细胞嵌入，使用蛋白质语言模型编码基因的生物学特性。通过将来自语言模型的蛋白质嵌入与RNA表达相结合，SATURN整合了来自不同物种的数据集，而不考虑它们的基因组相似性。SATURN可以检测跨物种共表达的功能相关基因，重新定义跨物种分析的差异表达。将SATURN应用于三个物种的全生物图谱以及青蛙和斑马鱼的胚胎发育数据集，发现SATURN可以有效地在物种之间传递注释，即使它们在进化上是遥远的。实验还证明，SATURN可以用来发现人类和其他四种物种青光眼相关基因之间潜在的不同基因功能。

来自：Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN

背景概述

细胞图谱整合的发展已经可以生成包含数十万个细胞的大规模单细胞数据集，其目标是揭示潜在的细胞过程。通过Human Cell Atlas，Mouse Cell Atlas和Fly Cell Atlas（果蝇）等对不同物种产生的不同数据集进行深入分析，进一步拓宽了我们对细胞生物学特征的理解。然而，目前在整合分析跨物种数据集方面仍然有限。这种联合分析为理解基本的进化过程提供了巨大的潜力，例如识别跨物种保守的细胞类型以及识别驱动此类细胞类型相似性和差异性的对应基因程序。

各种线性和深度学习方法已经被开发出来，用于学习scRNA数据的低维表示（cell embedding）。然而，现有的方法仅将基因表示为RNA表达矩阵的列，因此不能解释基因的生物学特性。这严重限制了它们在分析来自不同物种的数据集时的可用性，因为只有一部分基因可以匹配为一对一的同源。虽然序列比对方法已被探索以纳入跨物种基因之间的加权关系，但它们依赖于任意的比对阈值，并且不能捕获远程同源性。在数以亿计的蛋白质序列上训练的蛋白质语言模型的最新进展表明，通过学习基因编码的蛋白质的信息表示来解决这些问题具有很大的潜力。

因此，作者提出了SATURN (Species Alignment Through Unification of Rna and proteiNs)，这是一种深度学习方法，通过将基因表达与大型蛋白质语言模型生成的蛋白质嵌入相结合，整合了跨物种scRNA-seq数据集。SATURN引入了一个宏基因的概念，定义为具有相似蛋白质嵌入的基因群。基因与宏基因的关联强度反映了这种相似性，从而允许被蛋白质嵌入捕获的功能相关基因组合在一起。

SATURN概述

跨物种整合的主要挑战是不同的数据集有不同的基因，这些基因可能没有共同的一对一同源物。将每个物种的一组基因采样子集为一组共同的同源基因，会导致丢失大部分生物相关基因。物种数量的增加进一步加剧了这个问题（数据集越多，同源特征子集越少），因为一个基因必须在每个物种中都有同源物才能被考虑整合。SATURN通过使用大型蛋白质语言模型来学习编码基因生物学意义的细胞嵌入，从而克服了这个问题。SATURN在由蛋白质嵌入确定的功能相关基因空间中绘制跨物种数据集。

具体来说，SATURN整合了来自不同物种的scRNA-seq数据集，利用基因表达和蛋白质表示将它们映射到一个联合的低维嵌入空间。SATURN将以下数据作为输入：

i.来自一个或多个物种的scRNA-seq counts数据
ii.由大型蛋白质嵌入语言模型(如ESM2)生成的蛋白质嵌入
iii.物种内初始细胞注释（如果可用则来自细胞类型分配，如果不可用则通过运行聚类算法获得）。

语言模型用氨基酸序列产生蛋白质表示向量（图1a）。考虑到基因表达和蛋白质嵌入，SATURN学习了多个物种共享的可解释特征空间。我们把这个空间称为宏基因空间，它代表了一个联合空间，由基于蛋白质嵌入的相似性推断出功能相关的基因组成。基因对宏基因的重要性由神经网络权重来定义：重要性越强，连接基因和宏基因的权重就越高。
fig1a

图1a：SATURN将从一个或多个物种产生的scRNA-seq数据集以及这些物种中存在的蛋白质的氨基酸序列作为输入。然后，SATURN通过学习“宏基因”(即一组功能相关的种内和种间基因)，将每个物种的基因映射到一个联合特征空间。最后，在共享的宏基因空间中，SATURN通过学习一个联合细胞嵌入空间来整合跨物种的数据集，在该空间中，跨物种保守的细胞类型彼此对齐。

考虑到不同物种之间共享的宏基因表达空间，SATURN随后学习将多个物种之间的细胞表示为宏基因的非线性组合。SATURN中的神经网络首先使用零膨胀负二项(ZINB)损失的自编码器进行预训练，并使用基因到宏基因的权重进行正则化以重建蛋白质嵌入的相似性。使用预训练的网络作为初始化，SATURN然后使用弱监督度量学习的目标学习所有细胞到共享嵌入空间的映射。这使得SATURN能够校准嵌入空间中的距离，以反映细胞标签的相似性。特别是，SATURN中的目标函数由两个主要组成部分组成：

i.弱监督度量学习使得同一数据集中的不同细胞相距很远
ii.以无监督的方式迫使数据集上的相似细胞彼此靠近

这一目标使SATURN能够整合不同物种的细胞，同时在每个物种的数据集中保留细胞类型信息。

方法

SATURN 采用 $S$ 个物种生成的多个带注释的 scRNA 表达计数数据集 $X^{s_1},X^{s_2},...,X^{s_{S}}$ ，其中 $X_{s_{i}}\in\N_{+}^{C_{s_i}\times|G_{s_i}|}$ 。初始细胞注释可以通过细胞类型分配（如果可用）或通过运行聚类算法获得。在文中的所有实验中，作者运行 SATURN，在单个物种内使用初始细胞类型分配（注意：没有跨物种匹配）。除了计数矩阵和细胞类型标签，SATURN还需要输入 $p$ -dim的蛋白质embedding $P\in\R^{|G|\times p}$ ，其中 $G=\cup_{i=1}^{S}G_{s_i}$