建立在商用GPT上的简单高效单细胞表示模型

大规模基因表达数据正被用于单细胞表示模型的预训练。然而,这样的模型需要大量的数据管理和训练。在这里,作者探索了一种更简单的替代方案:使用 GPT-3.5 从单个基因的文本描述中生成基因嵌入,然后通过基因表达量加权gene embedding进行生成cell embedding。作者还为每个cell创建了一个句子嵌入(只使用按其表达水平排序的基因名称)。在用于评估预训练的单细胞嵌入模型的许多下游任务中——特别是基因属性和细胞类型分类任务——所提出的 GenePT 取得了与从数百万个细胞的基因表达谱中预训练的模型相当或更好的性能。GenePT 表明,商用大模型嵌入为编码单细胞生物知识提供了一种简单有效的途径。

来自:Simple and effective embedding model for single-cell biology built from ChatGPT, Nature Biomedical Engineering, 2024

背景概述

最近,单细胞生物学领域对开发“基础模型”的兴趣激增,基础模型旨在学习基因和细胞的嵌入,以促进各种下游分析。最近提出了几种方法来应对这一挑战,例如 scBERT、Geneformer 和 scGPT。从概念层面来看,它们采用了类似的方法,包括以下步骤:

  • 步骤1:采用深度学习架构(通常来自 transformer 系列)。
  • 步骤2:收集大规模单细胞基因表达数据集,以自监督方式对模型进行预训练(即重建一些被mask的表达值)。经过训练的编码器将输入基因和细胞映射为embeddings。
  • 步骤3:对于下游任务,可以选择使用少量特定于任务的数据来微调模型,从而提高其预测能力。

值得注意的是,上述方法仅从基因表达数据集中获取嵌入,而不使用任何文献和关于基因的预先存在的知识。虽然这种策略在单细胞转录组学数据和任务的应用中取得了一些成功,但它有几个局限性。首先,收集、处理和训练大规模单细胞转录组数据需要大量精力。此外,提取的embeddings严重依赖于步骤 2 中使用的基因表达数据,这没有利用总结基因功能的大量研究和文献。因此,在本研究中,作者提出了 GenePT:一种新方法,利用 OpenAI 的 ChatGPT 来表示基因和细胞,并研究了使用自然语言编码基因和细胞的可行性(参见图 1a-c 中的概述)。

直觉如下:LLM(例如 GPT-3.5 和 GPT-4)已经在包括生物医学文献在内的大量文本语料库上进行了训练,并且在理解、推理甚至生成生物医学文本方面表现出了卓越的能力。

因此,作者对几个生物驱动的任务评估了生成的嵌入,研究结果表明,GenePT 在一系列不同的下游任务中表现出与 Geneformer 等专门设计的模型相当甚至超越的性能。GenePT 为 scRNA-seq 数据的现有嵌入模型提供了几个优势:(i) 它在多个生物任务上表现更好;(ii) 它不需要大量的数据集管理和处理,也不需要对基因组数据进行额外的预训练; (iii)使用和生成基因和细胞嵌入非常简单。

目前的愿望是为单细胞转录组学构建一个类似的“基础模型”,希望最终的模型能够在一系列生物学任务中展现广泛的能力,而不仅仅是一项特定的任务。

这些模型的有前景的应用包括细胞类型注释(根据其生物学身份标记细胞);基因功能和调控网络推断(检查单个基因和聚类基因组的功能);样本整合(目标是解释转录本丰度主要受技术噪声而非基础生物学影响的情况);以及药物反应预测。例如,Geneformer 采用 Transformer 架构,通过对从 GEO 收集的 3000 万个细胞进行mask token预测,对基因表达水平等级进行预训练。同样,scGPT 使用生成预训练对来自 CELLxGENE 的 3300 万个细胞进行训练。scGPT 的有效性在其下游应用中显而易见,例如扰动预测、批次整合和细胞类型注释。其他创新努力包括 scBERT,BERT 模型被用于表示scRNA-seq数据,并在细胞类型注释和新细胞类型发现方面展示了最先进的性能,以及 scFoundation,将训练扩展到 5000 万个细胞并利用非对称编码器-解码器架构来适应数据的高度稀疏性。

最近,研究人员开始探索将 LLM 用于以生物医学为重点的任务,LLM具备了从整个输入生物医学文本中编码信息的能力。这种方法允许更细致入微和动态的表示。例如,Hou 和 Ji 使用 ChatGPT 进行细胞类型注释;Wysocki 等人研究了 BioBERT 和 BioMegatron 嵌入编码的生物医学含义。作者提出的 GenePT 直接受到生物医学自然语言处理社区大量先前工作以及 ChatGPT 系列模型在生物医学任务中证明的有效性的启发。与之前直接查询 LLM 执行生物任务的工作相比,所提出的方法利用了每个基因的输入描述(可从NCBI 等高质量数

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值