细胞对扰动的反应是理解生物学机制和选择潜在药物靶点的基石。尽管与实验方法相比,计算模型在预测扰动效应方面具有巨大潜力,但它们目前难以将实验观察到的细胞环境中的效应泛化到未观察到的环境中。
State是一种机器学习架构,它在预测扰动效应的同时考虑了扰动实验内部和之间的细胞异质性。State跨物理尺度运作:它包括一个状态转换模型(state transition),该模型使用来自70个cell contexts(细胞所处的生物学背景,可以是细胞系,组织,实验条件等)中超过1亿个受扰动细胞的数据来学习跨细胞集合的扰动效应,以及一个基于1.67亿人类细胞的观察性单细胞数据(未经人为扰动处理的自然状态下的单细胞测序数据,这类数据用于捕捉细胞在生理或病理条件下的固有基因表达特征,不涉及任何实验干预)训练的细胞嵌入模型(cell embedding model)。
与现有模型相比,State在多个大型数据集上提高了50%以上的扰动效应区分能力,并以超过2倍的准确性识别了遗传、信号和化学扰动中的真实差异表达基因。利用其嵌入模型,State还可以在训练期间未观察到扰动的新型细胞环境中识别扰动。此外,State中进一步介绍了Cell-Eval,这是一个使用生物学相关指标的综合评估框架,强调了State如何实现更精确的细胞类型特异性扰动反应发现,例如与细胞存活相关的反应。总体而言,State的性能和灵活性为虚拟细胞模型的规模化发展奠定了基础。
背景概述
从CRISPR或RNA干扰等基因干预,到小分子或生物制剂的化学治疗,这些扰动不仅用于诱导所需表型,也是建立基因、通路和细胞结局之间因果关系的核心,从而揭示对细胞功能的深层洞见。通过选择性破坏细胞系统的特定组件,科学家能够识别表型的因果驱动因素,这是靶点识别和药物开发中的关键步骤。实验扰动技术使研究人员能够沿着两个主要维度探究干预效果:所应用的扰动类型和细胞或生物学背景。这两个因素均深刻影响系统的反应。然而,这些测定在跨多种背景进行规模化时仍成本高昂且劳动密集。
我们需要提高在不同生物学背景下泛化扰动反应预测的能力,这将极大加速因果靶点的发现,为个性化治疗预测奠定基础。为解决这一问题,研究人员已开发出一系列计算方法。然而,尽管扰动数据集的规模和范围迅速扩大,预测能力却未实现成比例的提升。在跨细胞环境泛化扰动效应时,当前的深度学习方法并不始终优于简单的线性模型。这主要是由于单细胞扰动数据集中掩盖真实扰动效应的两种主要噪声源所致:
- 1.研究群体内未被实验协变量解释的生物异质性(扰动前后样本不存在真实的一对一关系),(图1A和公式1)
- 2.不同扰动数据集之间的技术或实验变异(图1A和公式1)
- 图1:State,一种基于Transformer的用于预测细胞集合扰动效应的模型。
- A) 在单细胞分辨率下建模扰动效应需要从噪声、批次效应和相似处理细胞间异质性所引入的混杂变异中分离生物信号。
- B) State是一种跨基因、单个细胞和细胞群体运作的多尺度机器学习架构。核心状态转换模型(ST)通过对按共享协变量(如扰动类型、细胞环境和批次)分组的受扰动和未受扰动细胞群体集合进行训练来学习扰动效应。ST可直接对基因表达谱或来自状态嵌入模型(SE)的紧凑细胞表征进行操作,SE从大规模观测数据中学习信息丰富的嵌入。这种多尺度架构使ST能够在计算机上有效模拟Perturb-Seq实验,并支持下游分析,如表达定量、差异基因表达分析和扰动效应大小估计。
- C) ST是一种Transformer模型,它将未受扰动的细胞群体集合和扰动标签作为输入,以预测相应的受扰动细胞群体。当使用基因表达谱表示细胞时,ST直接在单细胞分辨率下预测转录组。当使用State嵌入输入时,ST预测输出嵌入,然后用多层感知机(MLP)解码以预测转录组。
- D) 增加细胞集合的大小可改善验证损失直至达到最佳点,在Tahoe-100M数据集(Zhang等人,2025)上,当协变量匹配的组被分块为256个细胞的集合时可实现最佳性能。完整的ST模型显著优于伪批量模型(使用均值池化而非自注意力的State)和单细胞变体(集合大小=1的State)。移除自注意力机制的消融实验显著降低了性能,突显了建模集合内细胞间相互作用的重要性。在更大的集合大小(如512)下性能下降,表明对于给定数据集,存在一个平衡信息含量和噪声的最佳细胞集合大小。
建模生物异质性的挑战源于scRNA-seq的一个固有局限:测量过程中细胞的破坏使得无法观察其扰动前的状态,也无法准确推断每个细胞的特定扰动反应。为解决这一问题,扰动效应需通过比较受扰动和未受扰动的细胞群体来推断,同时尝试在细胞类型、批次或其他群体水平协变量层面解析异质性。
- 一些方法假设,与扰动效应相比,群体内异质性可忽略不计,因此简单地将受扰动细胞映射到随机选择的、具有共享协变量的未受扰动细胞(GEARS),这种映射方法也已在表达能力强的基于Transformer的模型中进行了测试(scGPT和scFoundation)。尽管在扰动效应较强的数据集中有效(Norman等,2019),但当扰动效应较为微妙且未受扰动群体的异质性甚至可能超过扰动信号时,这些方法往往难以泛化。这一点在细胞周期状态变异、谱系偏向或预先存在的表观遗传程序等情况下尤为明显,而当基础群体本身来自多种细胞类型(如体内研究)时更是如此。
- 其他模型将细胞群体视为分布,采用变分自编码器等生成式方法来学习数据生成分布,或显式解耦标记和未标记的异质性来源。然而在实践中,当应用于扰动效应预测时,这些模型往往无法显著优于未显式建模分布结构的方法。此外,虽已提出将未受扰动群体映射到受扰动群体的基于最优传输的方法,但其适用性受限于强假设和较差的可扩展性。
第二个主要噪声源是技术噪声,其源于数据本身的局限性而非模型。在遗传扰动实验中,预期效应(如基因敲除或敲低)可能不会在每个靶向细胞中均发生,导致细胞被错误标记为已扰动。实验条件带来的额外变异(包括转导效率、RNA测序深度、试剂化学性质和收集时间)进一步使不同研究的数据整合复杂化。这些技术混杂因素共同稀释了数据中真正由扰动产生的信号,从而限制了能够在不同数据集间稳健泛化的模型的发展。尽管单细胞基础模型已成为跨数据集学习稳健细胞表征的策略,但它们目前无法有效区分更细微的变异(如由遗传扰动驱动的变异)。
Box 1:在单细胞扰动实验中建模异质性
每个细胞的观测对数归一化扰动表达状态 (
X
p
X_{p}
Xp) 可基于其未扰动状态进行建模。然而,由于细胞的未扰动状态不可观测,我们将
X
p
X_{p}
Xp近似为:
其中,
D
b
a
s
a
l
D_{basal}
Dbasal表示未扰动的分布,即基线细胞群体,
T
^
p
(
D
b
a
s
a
l
)
\widehat{T}_{p}(D_{basal})
T
p(Dbasal)表示扰动
p
p
p对群体产生的真实效应。
H
(
D
b
a
s
a
l
)
H(D_{basal})
H(Dbasal)表示基线群体的生物学异质性,
ε
ε
ε表示实验特定的技术噪声,假定其独立于未扰动的细胞状态和
D
b
a
s
a
l
D_{basal}
Dbasal。
为了克服这些挑战,State是一种灵活且具表达能力的架构,用于建模不同数据集内部及之间的细胞异质性和扰动效应。State是一个多尺度模型,包含两个互补模块:状态转换模型(ST)和状态嵌入模型(SE):
- ST是一个Transformer,它利用自注意力机制对细胞集合上的扰动诱导转换进行建模,其中每个细胞由其原始基因表达谱或学习到的嵌入表示。
- SE通过学习跨多样数据集的细胞间基因表达变异进行预训练,以生成富有表现力的细胞嵌入,所产生的表示对技术变异具有鲁棒性,并针对检测扰动效应进行了优化。通过利用细胞集合上的自注意力,ST能够灵活捕捉生物异质性,而不依赖于显式的分布假设。SE和ST共同使State能够跨数据集和扰动进行泛化,提升了扰动响应建模的可迁移性。
State的多尺度架构使其能够利用1.67亿个细胞的观测数据来训练其嵌入模型(SE),并利用超过1亿个细胞的扰动数据来训练转换模型(ST)。在多个大规模数据集上对State进行了评估,包括基于药物的扰动(Tahoe-100M数据集)、细胞因子信号扰动(Parse Biosciences,2023)以及基因组规模的遗传扰动(Replogle等人,2022;Nadig等人,2025;Jiang等人,2025;McFaline-Figueroa等人,2024;Feng等人,2024)。为了全面评估State和其他模型模拟细胞扰动的能力,还额外提出了Cell-Eval —— 一个综合评估框架,该框架超越了基于表达计数的传统指标,纳入了一套聚焦于差异表达预测和扰动强度估计的生物学相关且可解释的指标。
在所有指标和跨越多个数量级的数据规模上,State始终优于简单模型和最先进的模型。State提供了一种可扩展的方法,用于学习能跨数据集和实验场景迁移的扰动效应。除了实证性能外,还提供了新的理论结果,证明了State是基于OT方法的推广,意义:OT 理论在细胞异质性建模中被广泛使用(如 Bunne 等人,2023),但其应用受限于强假设(如分布对称性、连续性)和较差的可扩展性。证明 State 是 OT 的推广,意味着 State 在理论上包含了 OT 的经典解,同时突破了其约束。
构建ST模型以预测细胞集合的扰动效应
State 是一种多尺度机器学习架构,可预测细胞扰动的下游转录组反应,包括基因表达变化、差异表达基因和整体扰动效应大小(图1B)。它利用:(i) 在分子水平上,跨实验和物种表征单个基因的嵌入;(ii) 在细胞水平上,捕捉每个细胞转录组状态的嵌入(可表示为细胞的对数归一化转录组或由状态嵌入模型(SE)生成的嵌入);以及 (iii) 在群体水平上,状态转换模型(ST)学习跨细胞集合的扰动效应。State 在训练期间可同时利用观测数据和干预数据:SE 基于从多个大型观测性单细胞数据库中提取的 1.67 亿人类细胞进行训练,而 ST 则基于大规模单细胞筛选中超过 1 亿个经化学或基因扰动的细胞进行训练。
ST 的核心动机是对已知协变量(如细胞类型和扰动标签)之外的细胞异质性进行建模,以改善扰动响应预测。为实现这一点,细胞首先按已知协变量进行分层(图 S1)。对于每个协变量匹配的扰动组,ST 构建固定大小的非互斥细胞集,这些细胞集在训练期间作为输入,并与大小相等且协变量匹配的未扰动对照细胞集配对。ST 使用 Transformer 主干网络对 对照细胞集 执行重复的双向自注意力和前馈操作(图 S2A)。这使 ST 能够在预测扰动的下游转录组响应的同时,对输入细胞集内的异质性进行建模(图 1C)。
ST使用受扰动细胞的预测转录组与观测转录组之间的最大均值差异(MMD)损失进行训练。尽管ST学习跨细胞分布的扰动效应,但其仍会为单个细胞预测受扰动的细胞特征——这一特性对学习受扰动群体的分布结构至关重要。实证结果表明,在达到阈值之前,增加细胞集合大小可使验证损失显著低于单个细胞的损失(无论这些细胞是真实样本还是通过邻近细胞伪bulk处理的样本,见图1D)。此外,移除自注意力机制会导致性能下降(图1D),这突显了基于集合的灵活自注意力机制在建模与扰动响应预测相关的细胞异质性方面的价值。
- 图S1:ST扰动模型的细胞集设计:细胞基于共享特征(如组织-tissue、谱系-lineage或批次-batch)进行分组,使模型能够以集合大小和匹配的协变量为条件学习扰动效应。
- 图S2:State的综合模型架构可视化:(A) ST模型架构。当直接在基因表达空间中工作时,基因解码器会被基因重建头替换,这是一个简单的线性层,可将Transformer输出投影回基因表达空间。(B) SE模型架构。输入到模型中的基因集的Transformer输出不用于下游扰动预测。[CLS]标记会被转换为细胞状态的强表示[State],以预测基因表达变异性。在SE的Gene Embedding这,使用ESM-2(3B)编码,就像UCE一样。
CELL-EVAL
为全面评估State建模扰动效应的能力,还涉及到评估框架Cell-Eval,Cell-Eval不仅衡量统计性能,还评估模型在模拟真实Perturb-Seq实验中的实用性。
扰动评估指标
扰动模型的一个关键目标是区分不同的扰动效应。Cell-Eval 使用多个互补指标对此进行评估。
扰动区分分数(Perturbation Discrimination Score,PDS)。通过预测的扰动后表达谱与真实值的相似性对其进行排序。分数定义为:在所有真实扰动中,预测扰动对应的真实谱的归一化排名。它直接评估模型能否恢复扰动之间的相对差异。随机预测器得分为 0.0,完美预测器得分为 1.0。
皮尔逊差值相关性(Pearson Delta Correlation)。该指标计算预测表达差值与观测表达差值之间的皮尔逊相关系数。表达差值定义为受扰动伪bulk转录组与未扰动伪bulk转录组的差异。通过scipy.stats.pearsonr函数对所有扰动计算得到。
调整互信息(AMI)。AMI 用于评估模型在学习的嵌入空间中保留扰动聚类结构的能力。计算 AMI 的方法如下:首先按扰动对细胞进行聚合,然后通过对真实数据集和预测数据集中每个扰动相关的所有细胞嵌入取平均来计算质心。接着对这些质心进行 Leiden 聚类,并使用 AMI 将预测的聚类标签与真实聚类标签进行比较。最终指标报告所有分辨率下的最大 AMI 分数,反映模型预测的扰动空间捕捉生物扰动全局结构的程度。
平均绝对误差(MAE)与均方误差(MSE)。为评估偏移的保留情况,计算每个扰动在预测数据集与真实数据集之间的MAE和MSE。MAE/MSE指标基于预测和观测的伪bulk数据进行评估。
差异表达
为评估生物学相关性,Cell-Eval采用Wilcoxon秩和检验进行差异表达分析,并通过Benjamini-Hochberg程序校正多重假设,该流程同时适用于测试细胞系中的观测值和模型预测结果。
差异表达重叠准确率(DE Overlap Accuracy)。对于每个扰动,通过校正p值过滤并按绝对对数倍数变化排序,确定前k个差异表达基因。计算预测差异表达基因集与真实差异表达基因集的交集,并以k的比例报告重叠率。
Top-k精度(Top- k precision):对于每个扰动,我们计算真实前k个差异表达基因(DEGs)中有多少出现在模型预测的前k个DEGs中,以此衡量不同阈值下的精度。
方向一致性(Directionality Agreement):对于每个扰动,使用校正p值阈值(如p < 0.05)识别真实数据中的显著差异表达(DE)基因集,然后找到预测与观测DE基因集的交集。对于每个重叠基因,检查预测的倍数变化与真实倍数变化的方向是否一致。方向一致性定义为预测与观测方向一致的重叠基因在所有重叠基因中所占的比例。
斯皮尔曼相关性(Spearman Correlation)。计算预测倍数变化与观测倍数变化之间的斯皮尔曼秩相关系数,仅针对在真实数据中显著差异表达的基因。对于每个扰动,提取显著基因列表(基于校正p值阈值),并对预测与真实数据的对数倍数变化计算斯皮尔曼相关系数。
效应大小(Effect sizes)。为比较扰动的相对效应大小,针对每个扰动计算预测与真实数据中差异表达基因数量(校正p值<0.05)的斯皮尔曼相关系数,从而评估模型是否准确捕捉了扰动的相对效应大小。
Baseline models
下面是各种基线模型。
扰动均值基线模型(Perturbation Mean Baseline)。该基线模型将受扰动的表达谱预测为对应细胞环境的对照均值加上从训练数据中学习到的全局扰动偏移量。对于每种细胞类型
c
c
c和扰动
p
p
p,首先计算细胞类型特异性均值:
其中
C
c
C_{c}
Cc为类型
c
c
c的对照细胞集合,
P
c
,
p
P_{c,p}
Pc,p为类型
c
c
c接受扰动
p
p
p的受扰动细胞集合。他们的差异是cell-type offset
δ
c
,
p
=
μ
c
,
p
p
e
r
t
−
μ
c
c
t
r
l
\delta_{c,p}=\mu_{c,p}^{pert}-\mu_{c}^{ctrl}
δc,p=μc,ppert−μcctrl。对所有包含扰动
p
p
p的细胞类型进行平均,从而得到一个全局偏移量。
给定一个测试细胞类型
t
t
t和扰动标签
p
p
p,模型输出:
因此,对照组被精确复现,而每个非对照扰动均采用相同的全局偏移量。
细胞类型均值基线模型(Cell Type Mean Baseline)。该基线模型通过返回训练集中观察到的相同细胞类型受扰动细胞的平均表达来预测细胞的扰动后表达谱。对于每种细胞类型
c
c
c,收集扰动非对照的所有训练细胞,并形成伪bulk均值。
在推理时,对于具有细胞类型
c
(
i
)
c^{(i)}
c(i)和扰动标签
p
(
i
)
p^{(i)}
p(i)的测试细胞
i
i
i,我们预测:
即对照组细胞的表达谱直接保留不变,而受扰动细胞的表达谱则采用其细胞类型的均值。
线性基线模型(Linear Baseline)。该基线模型将扰动视为低秩、全基因范围的线性位移,并将其添加到每个细胞自身的对照表达中。设 G ∈ R G × d g G \in \mathbb{R}^{G \times d_{g}} G∈RG×dg 为固定的基因嵌入矩阵(例如预训练的蛋白质特征向量,每行对应一个基因), P ∈ R P × d p P \in \mathbb{R}^{P \times d_{p}} P∈RP×dp 为固定的扰动嵌入矩阵(每行对应一个扰动,采用独热编码)。我们首先从训练集构建“表达变化”伪bulk:
因此,
Y
∈
R
G
×
P
Y\in\mathbb{R}^{G\times P}
Y∈RG×P存储了每个基因
g
g
g和扰动
p
p
p相对于该细胞匹配对照的平均变化。模型寻求一个低秩映射
K
∈
R
d
g
×
d
p
K\in\mathbb{R}^{d_{g}\times d_{p}}
K∈Rdg×dp和一个基因特异性偏差
b
∈
R
G
b\in\mathbb{R}^{G}
b∈RG,使得
Y
≈
G
K
P
⊤
+
b
1
⊤
Y \approx G K P^{\top} + b 1^{\top}
Y≈GKP⊤+b1⊤(通过最小二乘求解)。
获得
K
K
K后,即可预测:
其中,
P
p
(
i
)
P_{p^{(i)}}
Pp(i)表示矩阵
P
P
P中对应于扰动
p
(
i
)
p^{(i)}
p(i)的行。
深度学习基线模型(Deep Learning Baselines)。State模型与若干利用相关深度学习架构的基线模型进行基准测试,这些基线用于预测不同细胞环境下的扰动效应。其中包括两种基于自动编码器的模型:scVI和CPA,以及基于Transformer的scGPT模型。scVI对基因表达分布进行建模,同时考虑技术噪声和批次效应;CPA学习一个合成潜在空间,捕捉扰动、剂量和细胞类型的累加效应;scGPT利用对超过3300万个细胞的生成式预训练,支持包括扰动预测在内的跨任务零样本泛化。