CellFM——基于1亿人类细胞转录组数据的大规模基础模型

单细胞RNA测序(scRNA-seq)技术为细胞异质性研究提供了前所未有的分辨率,但数据的高噪声、稀疏性和批次效应等问题对分析提出了挑战。尽管已有多种单细胞分析工具,但其泛化性和可扩展性不足,难以充分利用大规模图谱数据的潜在信息。受自然语言处理(NLP)中大型语言模型(LLMs)的启发,研究者开始探索单细胞基础模型(Foundation Models)的开发。然而,现有模型在数据规模(通常≤5000万细胞)和参数量(≤1亿)上存在局限,且缺乏针对单一物种(如人类)的大规模训练数据。为此,中山大学杨跃东教授团队联合华为、重庆大学及新格元生物科技,依托国家超算广州中心“天河星逸”系统,成功研发出了CellFM,这是一个基于1.02亿人类细胞转录组数据预训练的、包含8亿参数的单细胞基础模型,旨在通过统一框架解决单细胞数据分析中的关键问题(图1)。

 

图1:CellFM框架概述

数据与方法

数据收集与处理:

研究团队从NCBI GEO、ENA、GSA和ImmPort等公共数据库中整合了19,914个样本,涵盖1.02亿人类细胞,包括正常供体(46.3百万)和疾病状态(如病毒感染、肺癌)的细胞。数据经过标准化处理,包括质量控制、基因名称统一(HGNC标准)和稀疏矩阵转换(图1c)。

模型架构:

CellFM基于改进的RetNet框架(ERetNet),包含以下核心模块(图1a, b):

  • 嵌入模块:将基因表达标量映射为高维嵌入特征,采用随机掩码策略(20%基因)进行自监督学习。

  • ERetNet模块:通过门控多头注意力(Gated MHA)、简单门控线性单元(SGLU)和深度归一化(DeepNorm)捕获基因间关系,计算复杂度优化至线性(O(l_max d^2/h))。

  • 低秩自适应(LoRA)模块:在微调阶段冻结大部分参数,仅更新低秩矩阵,提升效率。

模型在华为MindSpore框架下训练,使用4台Atlas800服务器(每台配备8个Ascend910 NPUs),总批次大小为128,训练2个epoch(图1d)。

实验结果

基因功能预测:

在零样本(zero-shot)设置下,CellFM在二元分类任务(如剂量敏感性、甲基化状态)中平均准确率优于UCE和scGPT(提升5.68%和5.86%),并在基因本体(GO)的多类功能预测中AUPR值领先(图2a-d)。UMAP可视化显示CellFM能清晰区分功能相关基因簇(图2c)。

 

图2:零样本设置下的基因功能预测性能比较

扰动响应预测:

结合经典扰动模型GEARS,CellFM在Adamson和Norman数据集上预测基因扰动后的差异表达基因(DEGs),Pearson相关系数(PCC)和均方误差(MSE)均优于基线模型(图3b-c)。此外,CellFM成功预测了CRISPR靶基因组合(如CNN1+ETS2)的逆向扰动效应,top-10预测准确率达81.8%(图3e-f)。在药物扰动预测中,CellFM与CellOT整合后,平均PCC提升2.2%。

 

图3:扰动响应与逆向扰动预测分析

细胞类型注释:

在跨数据集和跨批次评估中,CellFM(80M参数版本)的平均准确率为92.91%,优于scFoundation(+2.02%)和传统方法(如SVM)。其能有效区分CD8+ T细胞的耗竭与激活状态(准确率提升6.5%),并通过注意力机制识别细胞类型特异性长链非编码RNA(如HOTAIRM1)(图4a-h)。

 

图4:各模型在零样本细胞类型注释中的性能表现

基因关系解析:

CellFM的基因嵌入和注意力图谱揭示了免疫相关基因(如IL-2、IL-4)的调控网络,并通过KEGG富集分析验证了其捕获的通路(如JAK/STAT)的生物学意义(图5a-b)。在扰动基因分析中,CellFM识别的SPI1调控网络与ChIP-Atlas数据库一致,并富集于白血病相关通路(如HTLV-1感染)(图5d-f)。

 

图5:CellFM揭示的基因-基因关系

讨论与展望

CellFM通过大规模数据和高效架构,在单细胞分析任务中表现出色,但其仍存在以下局限:

  • 静态注意力机制:当前模型难以捕捉动态基因互作,未来需引入可解释性更强的注意力机制。

  • 跨物种扩展:模型仅针对人类细胞,未来可整合多物种数据以增强普适性。

  • 生物先验知识整合:结合已知调控网络可能进一步提升预测深度。

 

结论

CellFM作为当前最大的单物种单细胞基础模型,为细胞状态表征、疾病机制研究和药物发现提供了统一且高效的框架。其代码和预训练模型已开源,推动单细胞研究社区的发展。

关注我们,获取更多前沿生物信息学研究成果!有什么想法可以在评论区评论,也可以私信获取原文PDF哦!

 

 

阔跃生物公开课,为您解读国自然热点,免费思路答疑!助力科研突破!

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值