伪时序分析文献阅读——PAGA

PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells
PAGA:通过生成单细胞的拓扑结构并保存其映射来统一聚类和轨迹推断的图抽象

F. Alexander Wolf1 , Fiona K. Hamey2, Mireya Plass3, Jordi Solana3, Joakim S. Dahlin2,4, Berthold Göttgens2, Nikolaus Rajewsky3, Lukas Simon1 and Fabian J. Theis1,5*

在这里插入图片描述

Abstract:

ScRNA-seq可以量化离散细胞类型和连续细胞转变过程中的生物异质性。基于分区的图抽象(PAGA)在估计流形分区连通性的基础上,产生了流形数据的可解释类图映射。 PAGA映射保留了数据的全局拓扑,允许以不同的分辨率分析数据,从而提高了一般探索性数据分析工作流的计算效率。我们通过推断具有一致拓扑的四个造血数据集、成年扁平虫和斑马鱼胚胎的复杂结构细胞映射和在100万个神经元benchmarkPAGA的计算表现来说明该方法。 (https://github.com/theislab/paga)

Background:

ScRNA-seq为数千个单个细胞的全面分子分析提供了无与伦比的机会,预期将对广泛的生物医学研究领域产生重大影响。由此产生的数据集经常用术语转录景观(landscape)讨论。然而,对这些景观的细胞异质性和模式的算法分析,仍然面临着根本性的挑战,例如,如何解释细胞到细胞的变化(cell-to-cell variation),目前的计算方法通常以如下两种方式之一来解决这一点 [1]。聚类假设数据由生物学上不同的分组组成,例如不同的细胞类型或细胞状态,用不同的变量(聚类索引)给这些分组打标签。 相比之下,推断细胞的伪时序或轨迹[2-4]是假设数据位于连接的流形上,并用连续变量(沿流形的距离)来给细胞打标签。虽然前者是大多数单细胞数据分析的基础,然而后者可以更好地解释连续表型和过程,例如发育,剂量反应和疾病进展。 本文则将这两种观点统一

在单细胞实验中一个很重要的例子是分析细胞异质性,分析细胞异质性会涉及到源自复杂细胞分化过程的数据。但是,使用伪时序[2,5–9]分析此类数据,通常面临着生物过程是不完全采样的问题。因此,实验数据不符合连通流形,这样将数据建模成连续树形结构(现有算法的基础)是没什么意义的。这个问题甚至存在于基于聚类的,推断树形结构的算法过程中[10-12],它通常做出聚类符合一个连通的树形拓扑的无效假设。而且,它们依赖于基于聚类间距离的特征空间,例如聚类均值的欧式距离。然而,这种距离度量只在局部尺度上量化细胞的生物相似性,并且在用于更大规模的事物(如聚类)时充满了问题。通过采样[11,12]来解决拟合树形到聚类之间距离的高度不稳健[10]的努力效果有限。

基于分区的图抽象(PAGA)解决这些基本问题是通过生成细胞的类图映射,这可以保存多种分辨率下的数据中的连通和不连通结构。PAGA的数据分析公式可以跨不同的数据集,稳健地重建分支上基因表达的变化,并且第一次重建整个成年动物[13]的谱系关系。此外,PAGA初始化的流形学习算法收敛得更快,产生的嵌入更忠于高维数据的全局拓扑,并引入了一种基于熵的度量来量化这种忠实性。最后,展示了PAGA如何抽象转变图,比如,来自RNA速率,并与以往的轨迹推断算法进行了比较。因此,PAGA提供了一种图抽象方法[14],适用于推导有噪声的KNN图(通常用于表示scRNA-seq数据产生的流形)的可解释抽象。

Results:
PAGA映射离散不连通和连续连通的细胞到细胞的变化

现有的流形学习技术和单细胞数据分析技术都将数据表示为单细胞G=(V,E)的邻域图,其中V中的每个节点对应于一个细胞,E中的每个边表示邻居关系 (Fig. 1) [3, 15–17]。然而,G的复杂性和噪声相关的假边使得很难追溯从祖细胞到不同命运(fates)的一个假定的生物过程,也很难决定细胞组之间,实际上是连接的还是断开的。此外,追溯单细胞的孤立路径来陈述生物过程,其统计能力太少从而无法达到可接受的置信水平。 通过对单细胞路径的分布进行平均来获得power受到了拟合这些路径的分布的实际模型的困难的阻碍。

我们通过开发一个关于细胞群连接性的统计模型来解决这些问题,细胞群通常通过图分区[17-19]或通过聚类或实验注释来确定。这生成一个更简单的PAGA图G∗(Fig. 1),其节点对应于细胞群,其边权量化群之间的连通性。与模块化[20]类似,统计模型认为,如果细胞群之间的边数超过随机分配下期望边数的一部分,则群之间就是连接的。连接强度可以解释为对实际连接存在的可信度,并允许丢弃与噪声相关的,假的连接(Additional file 1:Note 1)。

当G表示数据在单细胞分辨率下的连通性结构时,PAGA图G∗表示数据在选定粗分辨率的分区的连通性结构,并允许识别数据的连通和断开区域。沿着G ∗中的节点的路径意味着通过G中相应的细胞群的单细胞路径的集合。通过平均这样的单细胞路径的集合,有可能以对假边稳健的方式追溯从祖先到命运的假定生物过程,提供统计能力,并与细胞生物轨迹的基本假设一致(Additional file 1: Note 2)。注意,通过改变分区的分辨率,PAGA可以产生多个分辨率的图,从而能够对数据进行分层探索 (Fig.1Additional file 1:Note 1.3)。

为了追踪单细胞分辨率下的基因动力学,我们将现有的基于随机游走的距离测度(Additional file 1: Note 2, Reference [7])扩展到考虑了不连通图的现实际情况。通过追溯抽象图G ∗中的高置信度路径和根据该路径中每组中的细胞与祖细胞的距离d排序,我们以单细胞分辨率追踪基因变化 (Fig. 1)。因此,PAGA通过提供一个坐标系(G∗,d)来涵盖聚类和伪时序的两个方面,该坐标系允许我们在保持其拓扑的同时探索数据的变化 (Additional file 1: Note 1.6)。因此,PAGA可以被看作是一种易于解释和稳健的拓扑数据分析方法 [9, 21] (Additional file 1: Note 3)。


Fig1: 基于分区的图抽象生成保留拓扑的单细胞映射。高维基因表达数据通过选择合适的低维表示形式和相关的距离度量这是为了计算邻域关系(在大部分论文中)表示为KNN图,我们使用基于PCA的表示和欧几里德距离。将KNN图以期望的分辨率分区,其中分区表示连接的细胞的群(partitions represent groups of connected cells.)。 为此,我们通常使用Louvain算法,然而,分区也可以任何其他方式获得。通过将一个节点(G中的节点)与每个分区(对KNN图执行louvain得到的分区)相关联,并通过表示分区之间连通性的统计度量的加权边连接每个节点,得到一个PAGA图G,本文介绍了这一点。通过丢弃低权重的假边,PAGA图揭示了数据在选定分辨率下的去噪拓扑,并揭示了其连接和断开区域。将PAGA图中的高置信度路径与单细胞图上基于随机游走的距离度量相结合,我们排序每个分区内的细胞根据它们到根细胞的距离。然后,一个PAGA路径平均所有通过相应细胞组的单细胞路径。 这允许在单细胞分辨率下沿着复杂的轨迹跟踪基因表达的变化。

PAGA初始化的流形学习产生保留拓扑的单细胞嵌入

计算上几乎无成本的PAGA粗分辨率嵌入可以用来初始化已有的流形学习和绘图算法,如UMAP[22]和ForceAtlas2(FA)[23]。本文采用这种策略生成单细胞嵌入。与以往算法的结果相比,PAGA初始化的单细胞嵌入忠于全局拓扑,这大大提高了它们的可解释性。为了量化这种说法,我们从嵌入算法的分类角度出发,开发了成本函数KLgeo(Box 1 and Additional file 1: Note 4),该函数分别通过在高维空间和嵌入空间中合并沿数据流形表示的测地距离来得到对全局拓扑的忠实度。与此之外,PAGA初始化的流形学习相对于流形学习中已建立的成本函数收敛速度更快,约为6倍(Additional file 1: Figure S10)。

在这里插入图片描述
Box 1.从嵌入算法的分类角度来看,我们通过使用加权Kullback-Leibler散度比较高维和嵌入空间中边缘的分布P和Q,来量化嵌入对高维数据的全局拓扑的忠实度。

PAGA一致预测造血相关数据集的发育轨迹和基因表达变化

造血系统是涉及干细胞向多种细胞命运的分化的最广泛表征的系统之一,因此为将PAGA应用于复杂流形提供了理想的场景。我们将PAGA应用于造血系统模拟数据(Additional file 1: Note 5)和三个实验数据集:使用MARS-seq[24]测序的2730个细胞,使用Smart-seq2[25]测序的1654个细胞,以及来自10× Genomics技术测序[26]的44,802个细胞。这些数据涵盖了从干细胞向红细胞、巨核细胞、中性粒细胞、单核细胞、嗜碱性粒细胞和淋巴细胞在内的细胞命运的分化。PAGA图(Fig. 2)捕获已知的造血特征,如巨核细胞和红细胞祖细胞的邻近性以及单核细胞和中性粒细胞祖细胞之间的紧密联系

人们争论的是嗜碱性粒细胞的起源。研究表明,嗜碱性细胞起源于嗜碱性细胞-中性粒细胞-单核细胞祖细胞(basophil-neutrophil-monocyte progenitor),或者,共同的红血球-巨核细胞-嗜碱性细胞祖细胞[27,28]。三个实验数据集的PAGA图强调了这种模糊性。 而Paul等人的数据集。 属于前一类,Nestorowa等。 属于后者,而Dahlin等人(迄今为止具有最高的细胞数和最密集的采样)使我们能够看到这两个轨迹。除了这种模糊性,可以用Paul等人和Nestorowa等人的采样不足来解释, 即使实验方案非常不同,细胞数量也大不相同,PAGA图显示了三个数据集之间的一致拓扑。除了细胞亚群之间的一致拓扑结构,我们还发现所有数据集的一致连续基因表达变化–我们通过PAGA图观察红细胞成熟标记基因(Gata2、Gata1、Klf1、Epor和Hba-a2)沿红细胞轨迹的变化,并观察这些基因的激活顺序与已知行为(behavior)一致。中性粒细胞标记(Elane、Cepbe和GFi1)和单核细胞标记(Irf8、Csf1r和Ctsg)的激活分别出现在中性粒细胞和单核细胞轨迹的末端。PAGA能够捕获多系造血细胞分化基础的动态转录过程,但先前的算法通常无法可靠地产生有意义的结果(Additional file 1: Figures S8, S9, S10)。

在这里插入图片描述
Fig 2: PAGA一致地预测造血细胞数据集的发育轨迹和基因表达变化。这三列对应于PAGA初始化单细胞嵌入、PAGA图和沿着PAGA路径的基因变化。这四行分别对应于模拟数据(Additional file 1: Note 5)和Paul等人的数据[24],Nestorowa等人的数据[25]和Dahlin等人的数据 [26]。 最后一行的箭头标记了嗜碱性粒细胞的两条轨迹。在所有数据集中观察到了5个红细胞标记基因,3个中性粒细胞标记基因和3个单核细胞标记基因在PAGA图上的一致拓扑和沿着PAGA路径的一致的基因表达变化。细胞类型缩写如下:干细胞为Stem,红细胞为Ery,巨核细胞为Mk,中性粒细胞为Neu,单核细胞为Mo,嗜碱性细胞为Baso,B细胞为B细胞,淋巴细胞为淋巴细胞。

PAGA以多种分辨率映射整个动物的单细胞数据

最近,Plass等人[13]利用PAGA对来自21,612个细胞的scRNA-seq数据重建了整个成年动物的第一个细胞谱系,即扁虫Schmidtea mediterranea。Plass等人着重研究了使整体连通性最大化的树状子图(通过逆PAGA连通性加权的G ∗的最小生成树),在这里,我们展示了如何将PAGA用于生成具有多种分辨率的数据映射(Fig. 3a)。与最优秀的的流形学习(连接的组织类型以断开或重叠的形式出现)相反,每个映射都保留了数据的拓扑(Fig. 3b)。PAGA的多分辨率功能直接解决探索性数据分析,特别是对于单细胞数据:数据在某些需要更高细节的区域重新聚类。

PAGA从RNA速度中提取信息
尽管PAGA图中的连接通常对应于实际的生物轨迹,但情况并不总是如此。这是PAGA应用于kNN图的结果,它只包含关于数据拓扑的信息。最近,有人建议考虑基于RNA速度的有向图,用于存储有关细胞转变的信息[29]。 为了包括此附加信息,可以为实际的生物学转变提供更多证据,我们将无向PAGA连接性度量扩展到此类有向图 (Additional file 1: Note 1.2),并使用它来定向PAGA图中的边(Fig. 3c)。由于高维特征空间scRNA-seq数据的相对稀疏采样,在不包括拓扑(邻域连接信息)的情况下,拟合和解释RNA速度向量实际上是不可能的。PAGA提供了一种提取拓扑信息和RNA速度信息的自然方法。接下来,我们将PAGA应用于斑马鱼胚胎[30]在不同发育时间点(胚胎天数)收集的53,181个细胞。对应于胚胎天数的分区的PAGA图准确地恢复了时间进展的链拓扑,而细胞类型的PAGA图则提供了易于解释的谱系关系概览(Fig. 4a)。用精细细胞类型PAGA坐标初始化ForceAtlas2布局自动产生相应的、可解释的单细胞嵌入(Fig. 4a)。Wagner等人[30]都应用了一种独立开发的计算方法,与PAGA相似(Additional file 1:Note 3),以生成粗粒度图并通过实验验证推断的谱系关系。 将精细细胞类型的PAGA图与Wagner等人的粗粒度图进行比较。 以高精度再现了他们的结果(Fig.4b)。

在这里插入图片描述
Fig 3: PAGA应用于整个成年动物。 a.PAGA图表示扁虫在组织分辨率、细胞类型分辨率和单细胞分辨率上[13]的数据。我们通过用细胞类型的PAGA图的嵌入初始化单细胞嵌入,获得了具有拓扑学意义的嵌入。 请注意,PAGA图与参考[13]中的相同,只是在这里,我们既不突出显示树子图,也不使用相应的树布局进行可视化。 b.为相同数据建立流形学习违反拓扑结构。(对组织类型数据直接聚类之后上流形学习算法,如umap,tsne,fa,效果并不好,要么是断开的,要么是重叠的,不用PAGA图初始化的下场。) c.d.用PAGA对两个示例谱系评估的RNA速度预测:表皮和肌肉。 我们显示了绘制在单细胞嵌入上的RNA速度箭头,标准PAGA图代表拓扑信息(仅表皮),而PAGA图代表RNA速度信息。


PAGA在一般探索性数据分析和流形学习中提高了计算效率和可解释性


将PAGA与state-of-the art UMAP[22]比较,10×Genomics的130万个神经元细胞的的运行时间[31] ,可加速130,从而可以对超大规模数据进行交互式分析(90 s vs 小型服务器的3个核心上的191分钟,tSNE需要大约10小时)。对于复杂的大型数据,PAGA图通常在探索性数据分析中为聚类步骤提供了更容易解释的可视化效果,其中二维表示的局限性显而易见(Additional file 1: Figure S12)。 就像任何常规嵌入方法一样,PAGA图形可视化可以通过基因表达进行着色,并可以通过注释(Additional file 1: Figure S13)中的协变量着色。

在这里插入图片描述
Fig 4: PAGA应用于Wagner等人的斑马鱼胚胎数据。
a.粗细胞类型,更细粒度的细胞类型以及PAGA初始化的单细胞嵌入的对应于胚胎天数的分区上运行PAGA之后获得的PAGA图。 细胞类型分配来自原始出版物。
b.与Wagner等人的参考图相比,PAGA预测的性能测量。 显示出很高的精度。 还显示了左面板中垂直线指示的阈值的假阳性边和假阴性边。

PAGA是稳健的,在质量上优于以往的谱系重建算法

为了评估图和树推断算法恢复给定拓扑的鲁棒性,我们开发了一种方法,通过比较图上的可能路径的集合来比较两个图的拓扑 (Additional file 1: Note 1.4, Figure S4)。对变化较大的参数进行采样 (numbers of neighbors in the kNN graph and resolution of the Louvain partitioning),导致变化较大的聚类(results in vastly varying numbers of partitions,hence vastly different clusterings of the data),我们发现PAGA图推断的数据拓扑的抽象比底层图聚类算法更具有鲁棒性 (Additional file 1: Figure S5)。尽管图聚类(与任何聚类方法一样)都是一个不适定的问题,因为存在许多高度退化的准最优聚类,并且需要一些有关聚类规模的知识,但PAGA不受此影响。

几种重建谱系树的算法被提出[5,10-12] (Additional file 1: Note 3,[4])。这些算法的主要问题是,与PAGA不同,它们尝试使用树状拓扑来解释数据的任何变化。 特别是,聚类的任何不连通分布都被解释为源自树。对于简单的模拟数据,这已经产生了定性错误的结果(Supplementary Figure 6)并且只对明显符合树状流形的数据有效 (Supplementary Figure 7)。为了与最近流行的算法Monocle 2建立真实数据的公平比较,我们重新研究了Qiu等人的主要示例[5]的复杂分化树。这个例子是基于Paul等人的数据 [24] (Fig.2),但聚类19被删除。当PAGA将这个聚类识别为断开时,其结果不受聚类19存在的影响,但如果考虑到聚类19,Monocle 2的预测将发生质的变化 (Supplementary Figure 8)。该示例说明了一个普遍的观点,即实际数据几乎总是由密集和稀疏的(连接和断开的)区域组成,有些区域像树,有些区域拓扑更复杂。

Conclusions :
鉴于越来越多的大型数据集和对更大的合并数据集进行分析,PAGA从根本上满足了对高维数据的可伸缩和可解释映射的需求。在人类细胞图谱[32]和可比较数据库的背景下,对其进行分层、多分辨率探索的方法将是关键,以便为用户提供可解释的可访问性。通过在PAGA图中表示聚类或细胞,PAGA可以在无偏的,数据驱动的坐标系中显示有关聚类或细胞类型的信息。在涉及单个分支的简单生物过程研究的最新进展的背景下,PAGA为任意复杂的拓扑提供了类似的健壮框架。鉴于技术噪声,转录随机性和计算负担导致的单细胞分辨率研究的基本挑战,PAGA提供了一个通用框架,可将单细胞之间的关系研究扩展到降噪的和可计算处理的细胞群之间的关系 。 这可能有助于获得更清晰的基础生物学图片。最后,我们注意到,PAGA不仅基于基于一系列选择的预处理步骤而产生的距离量度用于scRNA-seq,而且还可以应用于任何学习的距离量度。为了说明这一点,我们在基于深度学习的距离度量基础上将PAGA用于单细胞成像数据。Eulenberg等。 [33]表明,深度学习模型可以生成特征空间,其中距离反映了细胞周期的连续进展。Eulenberg等人。 [33]表明,深度学习模型可以产生一个特征空间,其中距离反映细胞周期的连续进展。 利用这一点,PAGA通过细胞周期的间期正确地识别生物轨迹,而忽略了一组受损和死亡的细胞 (Additional file 1: Figure S14)。

Methods :
预处理scRNA-seq数据

我们按照通常受Seurat [34]启发实施Scanpy [35]的步骤对scRNA-seq数据进行预处理。这些步骤包括对数据的基本过滤、总计数归一化、log1p对数化、提取有显著变化的基因、混杂因素的潜在回归以及对z-scores的缩放。在对计数数据进行这种校正和均质化表示后,我们执行PCA并在降维的主成分空间内表示数据。作为基于数据的PCA表示构建的这种“经典”过程的替代方法,可以考虑使用神经网络模型(例如scVI)的潜在空间表示形式来处理scRNA seq数据。
[36],或者像Additional file 1: Note 5.6讨论的分类器一样。用于处理的详细参数可参见Additional file 1: Note 5和https://github.com/theislab/paga。在GitHub存储库中,论文的每个图都复制在一个专用的笔记本中。

图构造

使用压缩和去噪的上一步中的数据,我们构造了对称的类似于kNN的图,通常使用近似UMAP中的最近邻居搜索[22]。尽管可能会选择不同的距离度量,但我们始终选择欧几里得距离。 根据用户的选择,可以使用自适应高斯核[7]或UMAP中的指数核[22]来加权图。 对于手稿中显示的所有结果,我们使用了指数内核。

图划分和抽象

我们考虑了类似kNN的图的所有感兴趣的分区。 为了确定这些值,通常,我们以合适的分辨率在[37]的实现中使用Louvain算法,但PAGA可与任何基础聚类算法或实验生成的观测分组一起使用。 在目前的工作中,我们仅使用Louvain算法。在传统的无向情况下,对于每个分区,我们使用Additional file 1: Eq. (11)中定义的“PAGA连接度量”生成一个PAGA图。该度量是一种测试统计量,用于量化两个分区的连接程度,并且与模块化密切相关[20]。对于每对聚类,PAGA连接性是归一化的聚类之间的边的数量与在边随机分配下预期的边数量之比。在有向情况下,我们通常抽象一个起源于RNA速度[29]的“速度图”,我们考虑箭头的比率Additional file 1: Eq. (14),每对分区都是输入和输出的,以量化分区之间的转换趋势。

伪时序估计

为了估计伪时序,我们使用了扩展的扩散伪时序(DPT)参考[7]来解决不连续图的问题。该扩展包括对原始算法的简单修改,该算法考虑了图邻接矩阵的不连续本征子空间,从而导致了图过渡矩阵本征值1的多个子空间。实际上,我们将无限距离分配给位于不连接聚类中的细胞,并像在DPT中一样计算图中连接区域内细胞之间的距离。见Additional file 1: Note 2,无论是为了细节,还是为了回顾基于随机行走的距离。例如,我们展示了DPT与平均通勤距离的密切关系。

跨分辨率的一致嵌入

通过使用粗粒度图的坐标初始化细粒度图的嵌入,PAGA实现了一致(即嵌入空间中的最小移位)和保留拓扑嵌入。对于这种初始化,属于粗粒度图中一个节点对应的组的细粒度图的节点的位置随机分布在该节点位置周围的一个不重叠的矩形区域中。
对粗粒度图的所有节点重复此过程。 通过选择在粗粒度嵌入中选择具有到最近邻居的一半距离的半边长的矩形,可以确保不重叠的区域。相反,对于给定的细粒度图,我们将节点放置在粗粒度图中,方法是将它们放在细粒度图中相应节点位置的中值坐标上。

Author details
1Helmholtz Center Munich – German Research Center for Environmental
Health, Institute of Computational Biology, Neuherberg, Munich, Germany.
2Department of Haematology and Wellcome and Medical Research Council
Cambridge Stem Cell Institute, University of Cambridge, Cambridge, UK.
3Berlin Institute for Medical Systems Biology, Max-Delbrück Center for
Molecular Medicine, Berlin, Germany. 4Department of Medicine, Karolinska
Institutet and Karolinska University Hospital, Stockholm, Sweden. 5Department
of Mathematics, Technische Universität München, Munich, Germany.

References

  1. Wagner A, Regev A, Yosef N. Revealing the vectors of cellular identity
    with single-cell genomics. Nat Biotechnol. 2016;34(11):1145–60. https://
    doi.org/10.1038/nbt.3711.
  2. Trapnell C, Cacchiarelli D, Grimsby J, Pokharel P, Li S, Morse M, Lennon
    NJ, Livak KJ, Mikkelsen T. S, Rinn JL. The dynamics and regulators of cell
    fate decisions are revealed by pseudotemporal ordering of single cells.
    Nat Biotechnol. 2014;32(4):381–6. https://doi.org/10.1038/nbt.2859.
  3. Bendall SC, Davis KL, Amir E-aD, Tadmor MD, Simonds EF, Chen TJ,
    Shenfeld DK, Nolan GP, Pe’er D. Single-cell trajectory detection uncovers
    progression and regulatory coordination in human B cell development.
    Cell. 2014;157(3):714–25. https://doi.org/10.1016/j.cell.2014.04.005.
  4. Saelens W, Cannoodt R, Todorov H, Saeys Y. A comparison of single-cell
    trajectory inference methods: towards more accurate and robust tools.
    bioRxiv. 2018;276907. https://doi.org/10.1101/276907.
  5. Qiu X, Hill A, Packer J, Lin D, Ma YA, Trapnell C. Single-cell mRNA
    quantification and differential analysis with census. Nat Methods. 2017;14:
    309–15. https://doi.org/10.1038/nmeth.4150.
  6. Setty M, Tadmor MD, Reich-Zeliger S, Angel O, Salame TM, Kathail P,
    Choi K, Bendall S, Friedman N, Pe’er D. Wishbone identifies bifurcating
    developmental trajectories from single-cell data. Nat Biotechnol. 2016;34:
    637–45. https://doi.org/10.1038/nbt.3569.
  7. Haghverdi L, Büttner M, Wolf FA, Buettner F, Theis FJ. Diffusion
    pseudotime robustly reconstructs branching cellular lineages. Nat
    Methods. 2016;13:845–8. https://doi.org/10.1038/nmeth.3971.
  8. Street K, Risso D, Fletcher RB, Das D, Ngai J, Yosef N, Purdom E, Dudoit
    S. Slingshot: Cell lineage and pseudotime inference for single-cell
    transcriptomics. BMC Genomics. 2018;19:477. https://doi.org/10.1186/
    s12864-018-4772-0.
  9. Rizvi AH, Camara PG, Kandror EK, Roberts TJ, Schieren I, Maniatis T,
    Rabadan R. Single-cell topological rna-seq analysis reveals insights into
    cellular differentiation and development. Nat Biotechnol. 2017;35(6):
    551–60. https://doi.org/10.1038/nbt.3854.
  10. Qiu P, Simonds EF, Bendall SC, Gibbs KD, Bruggner RV, Linderman M. D,
    Sachs K, Nolan GP, Plevritis SK. Extracting a cellular hierarchy from
    high-dimensional cytometry data with spade. Nat Biotechnology.
    2011;29(10):886–91. https://doi.org/10.1038/nbt.1991.
  11. Giecold G, Marco E, Garcia SP, Trippa L, Yuan GC. Robust lineage
    reconstruction from high-dimensional single-cell data. Nucleic Acids Res.
    2016;44(14):122. https://doi.org/10.1093/nar/gkw452.
  12. Grün D, Muraro MJ, Boisset JC, Wiebrands K, Lyubimova A,
    Dharmadhikari G, van den Born M, van Es J., Jansen E, Clevers H, et al.
    De novo prediction of stem cell identity using single-cell transcriptome
    data. Cell Stem Cell. 2016;19(2):266–77. https://doi.org/10.1016/j.stem.
    2016.05.010.
    Wolf et al. Genome Biology (2019) 20:59 Page 9 of 9
  13. Plass M, Solana J, Wolf FA, Ayoub S, Misios A, Glažar P, Obermayer B,
    Theis FJ, Kocks C, Rajewsky N. Cell type atlas and lineage tree of a whole
    complex animal by single-cell transcriptomics. Science. 2018;360(6391):
  14. https://doi.org/10.1126/science.aaq1723.
  15. Hu Y, Shi L. Visualizing large graphs. Wiley Interdiscip Rev Comput Stat.
    2015;7(2):115–36. https://doi.org/10.1002/wics.1343.
  16. van der Maaten L, Hinton G. Visualizing data using t-sne. J Mach Learn
    Res. 2008;9(Nov):2579–605.
  17. Islam S, Kjallquist U, Moliner A, Zajac P, Fan JB, Lonnerberg P,
    Linnarsson S. Characterization of the single-cell transcriptional landscape
    by highly multiplex rna-seq. Genome Res. 2011;21(7):1160–7. https://doi.
    org/10.1101/gr.110882.110.
  18. Levine JH, Simonds EF, Bendall SC, Davis KL, Amir E-aD, Tadmor MD,
    Litvin O, Fienberg HG, Jager A, Zunder ER, Finck R, Gedman AL, Radtke
    I, Downing JR, Pe’er D, Nolan GP. Data-driven phenotypic dissection of
    AML reveals progenitor–like cells that correlate with prognosis. Cell.
    2015;162(1):184–97. https://doi.org/10.1016/j.cell.2015.05.047.
  19. Blondel VD, Guillaume JL, Lambiotte R, Lefebvre E. Fast unfolding of
    communities in large networks. J Stat Mech. 2008;2008:10008. https://doi.
    org/10.1088/1742-5468/2008/10/P10008. 0803.0476v2.
  20. Xu C, Su Z. Identification of cell types from single-cell transcriptomes
    using a novel clustering method. Bioinformatics. 2015;31(12):1974–80.
    https://doi.org/10.1093/bioinformatics/btv088.
  21. Newman MEJ. Modularity and community structure in networks. Proc
    Natl Acad Sci. 2007;103(23):8577–582. https://doi.org/10.1073/pnas.
    0601602103.
  22. Singh G, Mémoli F, Carlsson GE. Topological methods for the analysis of
    high dimensional data sets and 3d object recognition. In: Eurographics
    Symposium on Point-Based Graphics; 2007. p. 91–100. http://cs233.
    stanford.edu/ReferencedPapers/mapperPBG.pdf.
  23. McInnes L, Healy J. Umap: Uniform manifold approximation and
    projection for dimension reduction. 2018;1802–03426. arXiv:1802.03426.
  24. Jacomy M, Venturini T, Heymann S, Bastian M. ForceAtlas2, a continuous
    graph layout algorithm for handy network visualization designed for the
    gephi software. PLoS ONE. 2014;9(6):98679. https://doi.org/10.1371/
    journal.pone.0098679.
  25. Paul F, Arkin Y, Giladi A, Jaitin DA, Kenigsberg E, Keren-Shaul H, Winter
    D, Lara-Astiaso D, Gury M, Weiner A, David E, Cohen N, Lauridsen FKB,
    Haas S, Schlitzer A, Mildner A, Ginhoux F, Jung S, Trumpp A, Porse BT,
    Tanay A, Amit I. Transcriptional heterogeneity and lineage commitment
    in myeloid progenitors. Cell. 2015;163:1663–77. https://doi.org/10.1016/j.
    cell.2015.11.013.
  26. Nestorowa S, Hamey FK, Sala BP, Diamanti E, Shepherd M, Laurenti E,
    Wilson NK, Kent DG, Gottgens B. A single-cell resolution map of mouse
    hematopoietic stem and progenitor cell differentiation. Blood.
    2016;128(8):20–31. https://doi.org/10.1182/blood-2016-05-716480.
  27. Dahlin JS, Hamey FK, Pijuan-Sala B, Shepherd M, Lau WWY, Nestorowa
    S, Weinreb C, Wolock S, Hannah R, Diamanti E, Kent DG, Göttgens B,
    Wilson NK. A single cell hematopoietic landscape resolves eight lineage
    trajectories and defects in kit mutant mice. Blood. 2018;131:1–11. https://
    doi.org/10.1182/blood-2017-12-821413.
  28. Görgens A, Ludwig AK, Möllmann M, Krawczyk A, Dürig J, Hanenberg
    H, Horn PA, Giebel B. Multipotent hematopoietic progenitors divide
    asymmetrically to create progenitors of the lymphomyeloid and
    erythromyeloid lineages. Stem Cell Rep. 2014;3:1058–72. https://doi.org/
    10.1016/j.stemcr.2014.09.016.
  29. Tusi BK, Wolock SL, Weinreb C, Hwang Y, Hidalgo D, Zilionis R,
    Waisman A, Huh JR, Klein AM, Socolovsky M. Population snapshots
    predict early haematopoietic and erythroid hierarchies. Nature.
    2018;555(7694):54–60. https://doi.org/10.1038/nature25741.
  30. La Manno G, Soldatov R, Zeisel A, Braun E, Hochgerner H, Petukhov V,
    Lidschreiber K, Kastriti ME, Lönnerberg P, Furlan A, et al. RNA velocity of
    single cells. Nature. 2018;560(7719):494. https://doi.org/10.1038/s41586-
    018-0414-6.
  31. Wagner DE, Weinreb C, Collins ZM, Briggs JA, Megason SG, Klein AM.
    Single-cell mapping of gene expression landscapes and lineage in the
    zebrafish embryo. Science. 20184362. https://doi.org/10.1126/science.
    aar4362.
  32. 10X Genomics. 1.3 Million Brain Cells from E18 Mice. https://support.
    10xgenomics.com/single-cell-gene-expression/datasets/1.3.0/
    1M_neurons. Accessed 5 Apr 2017.
  33. Regev A, Teichmann SA, Lander ES, Amit I, Benoist C, Birney E,
    Bodenmiller B, Campbell PJ, Carninci P, Clatworthy M, Clevers H,
    Deplancke B, Dunham I, Eberwine J, Eils R, Enard W, Farmer A, Fugger
    L, Göttgens B, Hacohen N, Haniffa M, Hemberg M, Kim SK, Klenerman
    P, Kriegstein A, Lein E, Linnarsson S, Lundberg E, Lundeberg J,
    Majumder P, Marioni JC, Merad M, Mhlanga M, Nawijn M, Netea M,
    Nolan G, Pe’er D, Phillipakis A, Ponting CP, Quake SR, Reik W,
    Rozenblatt-Rosen O, Sanes JR, Satija R, Schumacher TN, Shalek AK,
    Shapiro E, Sharma P, Shin JW, Stegle O, Stratton MR, Stubbington MJT,
    Theis FJ, Uhlen M, van Oudenaarden A., Wagner A, Watt FM, Weissman
    JS, Wold BJ, Xavier RJ, NY. Science forum: The human cell atlas. eLife.
    2017;6:27041. https://doi.org/10.7554/elife.27041.
  34. Eulenberg P, Köhler N, Blasi T, Filby A, Carpenter AE, Rees P, Theis FJ,
    Wolf FA. Reconstructing cell cycle and disease progression using deep
    learning. Nat Commun. 2017;8:463. https://doi.org/10.1038/s41467-017-
    00623-3.
  35. Satija R, Farrell JA, Gennert D, Schier AF, Regev A. Spatial reconstruction
    of single-cell gene expression data. Nat Biotechnol. 2015;33:495–502.
    https://doi.org/10.1038/nbt.3192.
  36. Wolf FA, Angerer P, Theis FJ. SCANPY: large-scale single-cell gene
    expression data analysis. Genome Biol. 2018;19(1):15. https://doi.org/10.
    1186/s13059-017-1382-0.
  37. Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Nat Methods.
    2018;15(12):1053. https://doi.org/10.1038/s41592-018-0229-2.
  38. Traag V. Louvain. GitHub repository. 2017. https://doi.org/10.5281/
    zenodo.35117.
  39. Wolf FA, Hamey F, Plass M, Solana J, Dahlin JS, Göttgens B, Rajewsky N,
    Simon L, Theis FJ. PAGA: Graph abstraction reconciles clustering with
    trajectory inference through a topology preserving map of single cells.
    GitHub repository. 2019. https://github.com/theislab/paga.
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值