生物大模型文献及代码精读（三）找到所有物种的通用基因？_toward universal cell embeddings: integrating sing-CSDN博客

本文链接：https://blog.csdn.net/kirov1024/article/details/138634756

生物大模型文献及代码精读（三）找到所有物种的通用基因？

今天给大家分享的文献来自于斯坦福大学计算机科学系、瑞士联邦理工学院的计算机与通信科学学院和清华大学计算机科学与技术系三家单位（居然没有生物相关单位，计算机人都来研究生物了？）合作的单细胞数据中的基因embedding大作Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN。

文章内容梳理

摘要简介

做了什么？ 在这里我们介绍SATURN(翻译为土星)，一种基于蛋白质语言模型的通用细胞嵌入编码基因的学习方法。通过整合来自不同物种的数据集及基因组相似性，作者提出了一种Macrogenes，用于综合不同基因跨物种共表达；作者基于这种embedding方法，将其用于单细胞多物种整合等下游任务，效果拔群；同时还展现了识别位置基因的功能的作用。

意义是什么？

解决跨物种分析难题
增强对细胞类型的理解：SATURN方法通过整合不同物种的单细胞RNA测序数据，揭示了细胞类型在进化过程中的保守性和多样性。
创新的生物信息学工具：文章介绍了一种创新方法，利用蛋白质语言模型生成的嵌入来表示基因，为跨物种的分子相似性提供了新的视角。
发现跨物种共享的基因程序：SATURN通过对大基因（macrogenes）进行差异表达分析，能够识别出功能相关的基因模块，这些模块跨越了物种界限，有助于识别和理解跨物种共享的生物学过程。

话外：感觉有一种WGCNA套皮重生的意思，原来咱们的WGCNA不就是用基因模块对应的这里的Macrogenes的吗？更何况这里用的Macrogenes就是用Kmeans做出来的，WGCNA还用了指数来强化基因聚类。但是不同的是，WGCNA没有关注到基因序列的信息，只是矩阵表达的信息。 所以在蛋白质大语言模型的加持下，还是发到了Nature Methods

WGCNA分析

文章结果速览

模型总览

核心挑战： 跨物种整合的主要难点在于不同物种的基因数据集中含有不完全同源的基因，如果仅选取那些有一对一同源物的基因，会导致大量生物学上有意义的基因信息丢失。

SATURN的解决方案： 为了解决上述问题，SATURN采用大型蛋白质语言模型来学习细胞嵌入（cell embeddings），通过蛋白质嵌入将不同物种的scRNA-seq（单细胞RNA测序）数据集映射到一个基于功能相关性的低维共享空间中。过程包括： 输入scRNA-seq的count、大型蛋白质嵌入语言模型（如ESM2）产生的蛋白质嵌入，以及种内的细胞注释。

同时SATURN学习到了一个可解释的、多物种间共享的特征空间，即macrogene space。在这个空间中，基因被推断为功能相关的，即使它们在序列基础上并不明显同源。

应用效果： SATURN成功地在不同物种间转移了细胞类型的注释，发现了同源性和物种特有的细胞类型，且性能优于现有的跨物种整合方法。

SATURN架构

一、基于SATURN构建的多物种单细胞图谱

多物种数据整合： SATURN利用深度学习技术，将不同物种的单细胞RNA测序（scRNA-seq）数据集整合起来。它通过将基因表达与由大型蛋白质语言模型生成的蛋白质嵌入相结合，成功地创建了包含人类、鼠狐猴、小鼠等多个物种的哺乳动物细胞图谱，总计覆盖了335,000个细胞，横跨九个常见组织。 这种方法不仅限于哺乳动物，还应用于青蛙和斑马鱼的胚胎发育数据集，展示了其在进化关系较远物种间的应用潜力。

宏观基因（Macrogenes）概念：SATURN提出了一种“宏观基因”的概念，即将具有相似蛋白质嵌入的基因分组。通过学习基因与这些宏观基因之间的关联强度，SATURN能够捕捉到功能上相关的基因群，即便它们在不同物种中的基因序列可能不直接同源。这种方法有助于识别和分类那些在功能上相似但基因表达模式在物种间有所差异的细胞类型。

细胞类型标注的校正与转移：SATURN能够重新注释细胞类型并纠正不完整的注释。例如，在对包含人类、恒河猴、猕猴、小鼠和猪的眼部细胞图谱（AH图谱）进行整合时，SATURN揭示了一些细胞类型如色素细胞、巨噬细胞和纤毛肌在所有物种中的一致性排列，同时也识别出了仅在部分物种中存在的细胞类型，如成纤维细胞。通过对原始注释的重新分组，SATURN修正了如成纤维细胞和角膜内皮细胞等的分类，发现并纠正了原有注释中的错误，如将原标记为巨噬细胞的小鼠细胞重新归类为成纤维细胞，并通过表达特定标志基因进一步证实了这一重分类的准确性。

二、基于macrogenes做差异分析

通过将每个细胞内基因的表达值乘以相应的基因-宏观基因权重，然后加权求和并规范化得到的。这使得即使在不同物种间缺乏直接基因同源的情况下，也能比较细胞间的表达模式。
完成差异表达分析后，SATURN通过识别对每个宏基因贡献最大的基因来解读其生物学意义。 这些高权重基因往往代表了该宏基因功能的关键组成部分。

三、基于macrogenes捕捉基因间的序列同源性以及功能相似性

宏基因同源性的捕获：SATURN生成的宏基因能够重新捕捉基于序列的基因同源关系。研究团队通过用BLASTP计算在斑马鱼和青蛙之间宏基因中排名靠前的基因对中同源基因的比例发现，即使仅考虑每个物种排名最靠前的基因，SATURN的宏基因中有56%能够重新识别出同源信息。而当考虑每个物种的前十名排名基因时，这一比例上升到了91.2%。
超越序列同源的功能相似性：宏基因不仅能识别基于序列的同源基因，还能揭示那些通过常规序列比对工具未被认定为同源，但功能上存在相似性的基因。 通过基因本体（GO）分析，同一宏基因的基因集显示出显著富集的GO功能相似性。