基于graph-linked embedding的多组学单细胞数据整合与调控推理

fig1

前置内容

单细胞多组学

对于单细胞多组学(Single Cell Multi-Omic),单细胞测序计数发展至今,从当初的scRNA-seq,scDNA-seq,一直到目前的scATAC-seq,单细胞甲基化测序,单细胞蛋白质组测序等测序技术,使得我们对胚胎发育,脑神经科学,以及癌症肿瘤等等的研究中,真正从细胞的层面出发,使我们能够在细胞的功能层面展开研究,使我们能够更好地理解基因如何通过影响细胞亚群表型进而影响个体性状的过程。对于生殖医学,精准医疗有着极为重大的意义。

然而,就目前绝大数测序技术而言,对一批细胞采集好数据后只能得到它一个维度的信息,比如,在使用scRNA-seq时候,我们只能够得到这些细胞的基因表达数据,但却不清楚它的DNA甲基化修饰或蛋白质组数据。但往往,得到一个细胞(或者一个细胞亚群)的多个组学信息是重要的,这意味着我们可以建立不同组学数据之间的联系,更好地刻画细胞的功能以及其内部的调控过程。将这些维度的数据中的几种结合到同一个单一细胞的多组学分析中,将在基础生物学和生物医学领域产生重要影响。

多源异构数据

多源异构数据,即多个不同来源不同特征类型但却描述同一对象的数据,多源异构数据的概念与多模态(multi-modal)比较类似,但是多源异构数据囊括了更多的数据类型,在信息领域,模态可以理解为数据格式的存在,例如文本,音频,图像,视频和其他格式。 当同时出现多种模态的时候即为多模态,比如作为多媒体的视频可以分解为多种单模态数据,例如图像,语音和文本。

单细胞的多组学数据整合其实非常类似一种多源异构数据融合问题,比如,当我们有造血干细胞的scRNA-seq与scATAC-seq两种不同特征的数据时,如何将这两类数据按照它们潜在的细胞亚群类型进行整合,比如我们将这两类数据进行整合聚类,假设同属于一种T细胞亚群,则属于这个亚群的染色质开放信息(scATAC-seq)和基因表达信息(scRNA-seq)就会被划分到一起。

但直接利用这两个数据的特征是不合理的,因为这两类数据特征不一致,因而需要通过一定的表示学习技术,得到所有样本在统一空间(流形)中的向量,再定义每个细胞(样本)间的距离才能进行后续的聚类整合。

单细胞数据整合是一种多源数据融合问题,其中的多源,意味着多个experiments或技术(批次),当这些experiments产生的数据特征相同,即为同构或者同类数据,也就是我们熟知的去批次效应问题,比如对于不同来源(测序平台,实验室)产生的基因表达谱数据,因为”来源不同”导致噪声,因而需要对表达谱数据进行批次校正。

相比于多源同构数据融合(去批次效应),多源异构数据整合是更广泛与困难的任务。一个重要的问题就是怎么将两个数据集不同的特征嵌入到同一个流形空间中,使得能够度量不同类型特征下,相应的细胞和细胞间的距离。


integration的一个重要假设是:即便是不同来源,特征不同类型的dataset,它们潜在的细胞亚群类型大体是一致的,因而这些dataset(至少部分的信息)是可以建立起联系的,因为共享同一个对象的信息。但同时integration又希望尽可能确保每个dataset真正特异的信息也能够保留,比如在dataset A中存在某种细胞类型不属于dataset B,那么在integration,聚类以后,这些只属于dataset A中的细胞类型不应该和dataset B的细胞有任何重叠,否则就是过度矫正(over-correct)。

不管是同构数据还是异构数据的整合,都希望:

  • 尽可能拉近不同数据集中来自于同一个细胞亚群的细胞,即它们在我们想要的这个流形空间中尽可能接近;
  • 尽可能保留不同数据集中特异的细胞亚群信息;

注意在论文阅读笔记-利用Scanorama高效整合异质单细胞转录组中的异构,最好是指本篇内容所述的多源同构数据。广义上讲,现有的scRNA-seq整合方法也能做多组学数据的整合,因为我们可以假设异构数据集降维到embedding的表示是相同的特征空间,然后我们可以使用同构整合的方法去整合这些embedding数据。


摘要

尽管出现了在单细胞中同时测量多种组学模态的实验方法,但大多数单细胞数据集仅包括一种模态。整合来自多个模态的组学数据的一个主要障碍是,不同的组学数据通常具有不同的特征空间。在这里,我们提出了一个名为GLUE(graph-linked unified embedding)的计算框架,该框架通过显式地建模跨组学的交互来弥合模态之间的差距。系统的基准测试表明,GLUE对于单细胞异构的多组学数据而言,比最先进的工作更准确、更稳健和更具可扩展性。我们将GLUE应用于各种具有挑战性的任务,包括三组学整合、调控推理和数百万个细胞的多组学人类细胞图谱构建,GLUE能够纠正之前数据有误的注释。GLUE采用模块化设计,可灵活扩展和增强以用于新的分析任务。

Main

最近单细胞测序的技术进步使得我们能够通过多组学数据挖掘图谱,例如染色质可及性chromatin accessibility(scATAC-seq),DNA甲基化(snmC-seq,sci-MET)和单细胞转录组single cell transcriptome(scRNA-seq),为揭示不同细胞类型的功能提供了一个机会。虽然最近出现了同时分析多组学数据的方法,但不同的组学通常是独立测量的,并产生了不匹配的数据,这要求我们需要开发高效的多组学整合技术。

在计算上,整合未配对的多组学数据(也称为对角线整合)时面临的一个主要障碍是不同组学具有不同的特征空间(例如,scATAC-seq中的可访问染色质区域与scRNA-seq中的基因)。简明的方法是基于先验知识将多模态数据转换到一个公共特征空间,再应用单一组学的数据集成方法。这种明确的“特征转换”方法很简单,但往往会导致信息丢失。基于耦合矩阵分解的算法避免了显式转换,但几乎不能处理两个以上的组学数据。另一种选择是通过非线性流形对齐来匹配来自不同组学的细胞数据,这完全消除了对先验知识的要求,并可以减少理论上的模态间信息损失;然而,这项技术主要应用于细胞类型数量有限且相对较少的数据集。

不断增长的数据量是另一个严峻的挑战。最近开发的测序技术通常可以得到数百万个细胞规模的数据集,而当前的整合方法仅适用于数据量更小的数据集。为了跟上数据量的增长,整合方法的设计应该考虑到多尺度性。

在此,我们提出了GLUE(graph-linked unified embedding),这是一个模块化的框架,用于整合未配对的单细胞多组学数据并同时实现调控推理。通过明确建模各个组学之间的相互作用,GLUE以生物学直观的方式弥合了不同组学特定特征空间之间的差距。系统基准测试和案例研究表明,GLUE对于单细胞多组学数据整合是准确、可靠和可扩展的。此外,GLUE被设计为一个通用框架,允许以模块化的方式轻松扩展。

Results

fig2

  • 图1:GLUE的架构。未配对的三个组学数据记为 X 1 ∈ R N 1 × ∣ V 1 ∣ , X 2 ∈ R N 2 × ∣ V 2 ∣ , X 3 ∈ R N 3 × ∣ V 3 ∣ \textbf{X}_{1}\in R^{N_{1}\times |V_{1}|},\textbf{X}_{2}\in R^{N_{2}\times |V_{2}|},\textbf{X}_{3}\in R^{N_{3}\times |V_{3}|} X1RN1×V1,X2RN2×V2,X3RN3×V3,其中, N 1 , N 2 , N 3 N_{1},N_{2},N_{3} N1,N2,N3为细胞数, V 1 , V 2 , V 3 V_{1},V_{2},V_{3} V1,V2,V3是各个组学的特征集合,GLUE使用特定于组学的变分自编码器从每个组学数据学习低维embedding U 1 , U 2 , U 3 \textbf{U}_{1},\textbf{U}_{2},\textbf{U}_{3} U1,U2,U3。原始数据的维度和VAE生成的分布可以在不同组学上保持不同,但embedding的维度 m m m应该是共享的。为了链接特定于组学的数据空间,GLUE以guidance graph G = ( V , E ) G=(V,E) G=(V,E)的形式利用了先验知识,其中节点 V = V 1 ∪ V 2 ∪ V 3 V=V_{1}\cup V_{2}\cup V_{3} V=V1V2V3是不同组学的特征。图变分自编码器基于先验知识的 guidance graph(the prior knowledge-based guidance graph)学习组学特征的embedding V = ( V 1 T , V 2 T , V 3 T ) T \textbf{V}=(\textbf{V}^{T}_{1},\textbf{V}^{T}_{2},\textbf{V}^{T}_{3})^{T} V=(V1T,V2T,V3T)T,然后在数据解码器中使用这个guidance graph,通过与细胞embedding进行内积重构组学的数据,并有效地链接组学特定的数据空间,以确保一致的embedding方向。最后,使用组学判别器 D D D通过对抗性学习来对齐不同组学的细胞embedding。 ϕ 1 , ϕ 2 , ϕ 3 , ϕ G \phi_{1},\phi_{2},\phi_{3},\phi_{G} ϕ1,ϕ2,ϕ3,ϕG表示数据编码器和图编码器中可学习的参数。 θ 1 , θ 2 , θ 3 , θ G \theta_{1},\theta_{2},\theta_{3},\theta_{G} θ1,θ2,θ3,θG表示数据解码器和图解码器中可学习的参数。 ψ ψ ψ表示组学判别器中的可学习参数。
  • 由于是图VAE,所以输出的调控图可以作为调控推理结果。注意,在GLUE中,如果使用图中内积近似的解码操作,其实解码器的参数是不需要的。

受先前研究的启发,我们将细胞状态建模为通过变分自编码器学习的低维细胞嵌入。鉴于其在生物学性质和分析技术方面的固有差异,每个组学层都配备了一个单独的自编码器,编码器为特定于组学层特征空间定制的概率模型。

利用先前的生物学知识,我们建议使用基于知识的图(guidance graph),明确建模跨组学层之间的特征调控作用,以链接特定于组学层的特征空间;图中的顶点对应于不同组学层的特征,边表示特征之间的调控作用。例如,当整合scRNA-seq和scATAC-seq数据时,顶点是基因(gene)和可访问的染色质区域(即ATAC peak),可访问区域与其假定的下游基因之间可以连接边。然后,在图编码器的feature embedding的指导下,以迭代优化的形式进行多模态对齐。

fig3

  • 图2:整合性能的表现。
  • a:不同整合方法的生物保守性得分与组学整合得分;
  • b:不同方法的综合得分;
  • c:不同方法的单细胞级别对齐误差;
  • d:依赖先验特征关系的集成方法在不同先验知识损坏率下的FOSCTTM增加趋势;
  • e:不同规模的子样本数据集上不同整合方法的FOSCTTM值;

fig4

  • 图3:小鼠皮层的三组学整合。由原始细胞类型着色的scRNA-seq(a)、snmC-seq(b)和scATAC-seq(c)的embedding UMAP可视化。与“mPv”和“mSst”对齐的细胞用绿色圆圈突出显示。与“mNdnf”和“mVip”对齐的细胞用深蓝色圆圈突出显示。与“mDL-3”对齐的细胞用浅蓝色圆圈高亮显示。
  • d:所有整合细胞embedding的UMAP可视化,由组学层着色。
  • e:所有三个组学层中每种细胞类型的标记基因重叠的程度。
  • f:基于不同组学层与组学组合(combined)预测基因的决定系数(coefficient of determination决定系数,其数值等于相关系数的平方,它是对估计的回归方程拟合优度的度量)
  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
网络对齐(Network Alignment)是指在两个或多个网络中找到相对应的节点对,以便可以进行跨网络的数据分析和挖掘。而联合链接预测和网络对齐(Joint Link Prediction and Network Alignment)则是将链接预测和网络对齐两个任务进行统一的建模和求解。 在传统的网络对齐任务中,通常会使用网络节点的属性信息或者拓扑结构信息来进行对齐。而链接预测任务则是根据网络中已有的节点和边的信息,预测网络中可能存在的未知边。联合链接预测和网络对齐的目标是通过同时考虑两个任务,提高网络对齐的准确性和效率。 一种常用的方法是基于嵌入(embedding)的方式,将网络中的节点映射到低维空间中的向量表示。通过习节点的嵌入向量,可以捕捉到节点之间的相似性和关联性。在联合链接预测和网络对齐任务中,可以使用跨图嵌入(cross-graph embedding)的方法来进行建模。 跨图嵌入方法通过共享节点嵌入向量来实现链接预测和网络对齐之间的信息传递。具体来说,在网络对齐任务中,可以通过最大化对应节点嵌入向量之间的相似性来进行对齐。而在链接预测任务中,可以通过习节点嵌入向量之间的关系,来预测网络中可能存在的未知边。 一些基于跨图嵌入的方法可以使用图神经网络(Graph Neural Network)进行建模,通过多层网络的节点更新和聚合操作,逐步习节点的嵌入向量。同时,还可以利用一些损失函数来对节点嵌入向量进行约束,以提高对齐和预测的准确性。 总的来说,联合链接预测和网络对齐通过跨图嵌入的方式,将两个任务进行统一的建模和求解,可以提高网络对齐的准确性和效率。这是一个非常重要的研究方向,在实际应用中具有很大的潜力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值