细胞和基因质量控制: A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor
摘要
自2014年以来,已经开发了50多种轨迹推断方法,每种方法都有自己的方法论特征。选择一种推断轨迹的方法通常具有挑战性,因此,仍然缺乏对每种方法全面的性能和稳健性的评估。
必要性
- 因为该领域的新用户面临着各种各样的TI方法,而没有清楚地知道哪种方法对他们的问题是最优的;
- 需要评估现有方法的优点和缺点,以便该领域的新发展可以集中于改进当前的最新技术水平。
评判标准
本文提出一种框架,使用该框架,我们在大量真实和合成数据集上比较了总共29种轨迹推断方法的轨迹。使用多个指标评估方法,包括推断排序的准确性,网络拓扑的正确性,代码质量和用户友好性。
核心方面:
- 源代码和基于文献的表征;
- 通过将预测轨迹与黄金标准进行比较来评估TI方法的准确性和可扩展性;
细胞排序,细胞邻域和拓扑的相似性 - 对所提供软件和文档的质量控制。
结果
使用此评判框架发现,Slingshot, TSCAN and Monocle DDRTree几种方法明显优于其他方法,尽管它们的性能取决于数据中存在的轨迹类型。
局限性
- 目前,专门评估关于其默认参数的方法,但计划在将来添加详细的参数调整程序;
- 有很大改进空间,特别是对于检测复杂轨迹拓扑的方法。
TI方法
文献获得
通过检索关键字‘’trajectory inference” and “pseudotemporal ordering”
TI方法的特征
- 轨迹的拓扑是计算推断还是设计固定;
早期:设计固定拓扑,工作主要集中在沿着这种固定拓扑正确排序细胞; - 是否利用先验信息;
先验信息有两面性,可能促进向轨迹正确方向的推断,也可能抑制(有噪声的先验信息);另一方面,先验信息不好获得;【Start cells,End cells,end states,Grouping,branches,Time course】
TI方法的分解
在所有TI方法中,这些组成部分可大致分为两个阶段
- 使用降维,聚类或图形构建,转换为简化表示;
- 沿简化表示排序细胞。
Method
输入数据
原始计数数据(过滤后的细胞和基因)or 标准化表达值,类似于下图:
- 细胞质量控制
- 细胞和基因质量控制文章(已下载PDF): A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor
绝对中位差MAD.
(1)细胞质量的两种常用度量是文库大小和每个文库中表达特征的数量;
文库大小定义为所有特征(即基因和加标转录本)的计数总和;具有相对小的文库大小的细胞被认为是低质量的,因为在文库制备期间RNA未被有效捕获(即,转化成cDNA并被扩增)。
每个细胞中表达的特征数量定义为该细胞具有非零计数的特征数量,任何表达基因很少的细胞可能都很差;
(2) 对数转换可在较小值时提高分辨率,尤其是当原始值的MAD与中值相当或更大时;
需要移除低质量的细胞以确保技术效果不会扭曲下游分析结果;
(3)我们去除对数库大小低于 中值对数库大小 3个MAD的细胞;我们还去除了其中对数转换的表达基因数量低于中值3个MAD的细胞;