在单细胞分辨率下预测细胞对新型药物扰动的反应

scRNA-seq能够在单个细胞分辨率下研究细胞异质性对扰动的响应。然而,由于技术限制,扩大高通量筛选(HTSs,highthroughput screens)来测量许多药物的细胞反应仍然是一个挑战。因此,目前依然需要借助常规的bulk-RNA传递信息。chemCPA是一种新的编码器-解码器结构,用于研究未知药物的扰动效应。作者将该模型与迁移学习的架构相结合,演示了如何在现有的bulkRNA-HTS数据集上进行训练可以提高泛化性能。更好的泛化减少了对单细胞分辨率的昂贵需求,最终加速药物发现。

来自:Predicting Cellular Responses to Novel Drug Perturbations at a Single-Cell Resolution

背景概述

单细胞测序允许同时分析数百万个细胞,增加了探索细胞异质性的分辨率。利用scRNA-seq和高通量筛选(HTSs),人们现在可以在细胞分辨率上研究不同扰动(即药物剂量组合,drug-dosage combinations)对转录组的影响。与传统的HTs不同,scRNAseq HTs可以识别基因表达和细胞异质性的细微变化,这是制药和药物发现的基石。

因此,需要计算方法来解决现有实验方法的有限探索能力,并发现有希望的候选药物。合适的方法应该预测对未知组合扰动的反应。就医学影响而言,对未知扰动的预测可能是最理想的。同时,它要求模型在多个不同的细胞环境中正确捕获复杂的化学相互作用。这种泛化能力还不能仅从单细胞HTs中学习,因为它们被认为不能覆盖所需的化学相互作用的广度。在这项工作中,作者利用跨数据集的信息来缓解这个问题。

相关工作

在过去的几年里,深度学习(DL)已经成为分析和解释scRNA-seq数据的重要工具。特别是表征学习,不仅可用于识别细胞异质性和整合,还能将query映射到reference,而且还可用于模拟单细胞扰动响应。

与线性模型不同,DL适用于捕获非线性细胞类型特异性反应,并且易于扩展到全基因组测量。最近,Lotfollahi等人引入了CPA方法对scRNA-seq数据进行扰动建模。CPA不能推广到看不见的化合物,这阻碍了其应用于尚未通过scRNA-seq数据测量的药物的虚拟筛选,而这是有效药物发现所必需的。

另一方面,对于bulkRNA数据,已经提出了几种方法来预测de novo化学物质的基因表达谱。至关重要的是,LINCS项目引入的L1000数据集极大地促进了基于表型的化合物筛选的进展。然而,目前尚不清楚如何将这些方法转化到具有少量化合物信息的单细胞数据集,并且可用于不同的基因集合。

化学组合扰动自编码器

考虑一个数据集 D = { ( x i , y i ) } i = 1 N = { ( x i , ( d i , s i , c i ) ) } i = 1 N D=\left\{(x_{i},y_{i})\right\}_{i=1}^{N}=\left\{(x_{i},(d_{i},s_{i},c_{i}))\right\}_{i=1}^{N} D={ (xi,yi)}i=1N={ (xi,(di,si,ci))}i=1N其中 x i ∈ R n x_{i}\in R^{n} xiRn描述了 n n n维基因表达, y i y_{i} yi是属性集。对于scRNA-seq扰动数据,我们通常考虑药物和剂量属性(drug and dosage attributes), d i ∈ d_{i}\in di{drugs in D D D}, s i ∈ R s_{i}\in R siR。细胞 i i i的细胞系记为 c i c_{i} ci。注意,这组属性依赖于可用数据,并且可以扩展为协变量,如患者或物种。

预测反事实组合的一种可能方法是将细胞的基因表达 x i x_i xi从其属性 y i y_i yi不变地编码为latent z i z_i zi,称为basal state。 z i z_{i} zi可以与属性 z d i z_{d_{i}} zdi z c i z_{c_{i}} zci组合,编码任意属性组合 y i ′ ≠ y i y_{i}'\neq y_{i} yi=yi,并解码回对应这组新选择属性的基因表达状态 x ^ i \widehat{x}_{i} x i

为此,作者将化学组合扰动自编码器chemCPA分为三个部分:1.基因表达编码器和解码器,2.属性嵌入器,3.对抗性分类器,参见图1的说明。

fig1

  • 图1:chemCPA架构,模型包含3部分:1.基因表达编码器和解码器,2.属性嵌入器,3.对抗性分类器。分子编码器 G G G可以是任意的graph-based和language-based模型,前提是生成固定长度的embedding h d r u g s h_{drugs} hdrugs。MLPs S S S M M M被训练用于映射embedding到扰动latent space。这里, z d i z_{d_{i}} zdi被添加到basal state和协变量embedding z c i z_{c_{i}} zci中。在这项工作中,后者对应于细胞系。basal state z i = E θ ( x i ) z_{i}=E_{\theta}(x_{i}) zi=Eθ(xi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值