Cell2Sentence：为LLM传输生物语言

tzc_fly

已于 2024-06-24 17:26:00 修改

阅读量931

点赞数 11

分类专栏：单细胞多组学分析文章标签：人工智能深度学习

于 2024-06-24 17:10:00 首次发布

本文链接：https://blog.csdn.net/qq_40943760/article/details/139899782

版权

像GPT这样的LLM在自然语言任务上表现出了令人印象深刻的性能。这里介绍一种新的方法，通过将基因表达数据表示为文本，让这些预训练的模型直接适应生物背景，特别是单细胞转录组学。具体来说，Cell2Sentence将每个细胞的基因表达谱转换为按表达水平排序的基因名称序列。实验证明，这些基因序列，称之为“cell sentences-细胞句子”，可以用来微调GPT-2等语言模型。至关重要的是，作者发现自然语言预训练可以提高模型在细胞句子任务中的性能。当对细胞句子进行微调时，GPT-2在提示细胞类型时会生成生物学合理的细胞。相反，当提示使用细胞句子时，它也可以准确预测细胞类型标签。这表明，使用Cell2Sentence微调的语言模型可以获得对单细胞数据的生物学理解，同时保留其生成文本的能力。该方法使用现有的模型和库将自然语言和转录组学结合起来。

来自：Cell2Sentence: Teaching Large Language Models the Language of Biology, ICML, 2024

fig1

图1：Cell2Sentence框架概述。输入的单细胞数据（包括元数据）被转换为单细胞句子，用于语言模型微调。
在推理时，新的细胞句子被生成，并且可以被转换回基因表达空间。

背景概述

将LLM应用于生物学等其他领域仍然是一个悬而未决的挑战。目前该领域的方法依然依赖于专门设计的神经网络，难以直接利用来自自然语言的LLM知识。

现在目标是将LLM的能力扩展到转录组学领域。关键思想是通过一种称为Cell2Sentence（C2S）的方法，以符合LLM的文本格式表示单细胞数据。C2S将每个细胞的基因表达谱转换为按表达水平排序的基因名称（也称为gene symbols）的序列。这允许任何预训练的因果语言模型在细胞序列上被进一步微调。其次，自然语言预训练结合C2S训练显著提高了转录组任务的模型性能，并且性能还随模型大小而扩展（scaling law）。我们不仅可以生成和解释转录组学数据，还可以用自然语言进行交互。

潜在的应用包括推断基因表达在扰动下的变化，生成罕见的细胞类型，识别marker，以及通过自然语言解释转录组学。这种能力可以协助我们推进单细胞研究。便利性包括两方面：

Easy to use：任何用户都可以使用流行的第三方库（如Hugging Face Transformer）轻松利用任何可用的预训练语言模型，这些库具有简化的模型部署和微调功能。唯一需要的额外步骤是将原始单细胞数据预处理为C2S格式，并将生成的文本后处理回基因表达向量，这两个步骤都是使用GitHub存储库中提供的模块化数据转换管道无缝完成的。
Easy to modify：训练管道的简单性意味着用户可以根据自己的喜好塑造预处理和训练步骤，例如通过添加更多元数据或特定提示。

fig2

图2：Cell2Sentence框架的详细概述。通过基因名称的表达排序，将单细胞基因表达谱转化为细胞句子。这些细胞句子可以用生物学元数据进行注释，包括细胞类型、组织或疾病。随后，使用细胞句子对语言模型进行微调。在推理中，细胞句子是有条件地（例如，给定细胞类型或组织类型）和无条件地生成的。生成的细胞句子可以转换回基因表达谱。

方法

数据转换

Cell2Sentence转换的核心是将细胞表达矩阵重组为降序排列转录物丰度的基因名称序列。令 $C$ 表示具有 $n$ 行 $k$ 个基因的计数矩阵， $C_{i,j}$ 表示在细胞 $i$ 中观察到的基因 $j$ 的RNA分子的数量。作者遵循scRNA-seq数据的标准预处理步骤：过滤表达少于200个基因的细胞和过滤在少于200个细胞中表达的基因。然后使用Scanpy Python库计算质量控制指标，并过滤出含有2500个计数以上或线粒体基因转录物计数超过20%的低质量细胞。计数矩阵然后被row-标准化（每个细胞的转录求和为10,000），再被log-标准化，得到处理后的矩阵 $C^{'}$ ，总结了标准化步骤为： $C'_{i,j}=log_{10}(1+10^{4}\times \frac{C_{i,j}}{\sum_{j=1}^{k}C_{i,j}})$