评判轨迹好坏框架


细胞和基因质量控制: A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor

摘要

2014年以来,已经开发了50多种轨迹推断方法,每种方法都有自己的方法论特征。选择一种推断轨迹的方法通常具有挑战性,因此,仍然缺乏对每种方法全面的性能和稳健性的评估。

必要性

  1. 因为该领域的新用户面临着各种各样的TI方法,而没有清楚地知道哪种方法对他们的问题是最优的;
  2. 需要评估现有方法的优点和缺点,以便该领域的新发展可以集中于改进当前的最新技术水平。

评判标准

本文提出一种框架,使用该框架,我们在大量真实和合成数据集上比较了总共29种轨迹推断方法的轨迹。使用多个指标评估方法,包括推断排序的准确性网络拓扑的正确性代码质量用户友好性
核心方面:

  1. 源代码和基于文献的表征;
  2. 通过将预测轨迹与黄金标准进行比较来评估TI方法的准确性和可扩展性;
    细胞排序,细胞邻域和拓扑的相似性
  3. 对所提供软件和文档的质量控制。

结果

使用此评判框架发现,Slingshot, TSCAN and Monocle DDRTree几种方法明显优于其他方法,尽管它们的性能取决于数据中存在的轨迹类型。

局限性

  1. 目前,专门评估关于其默认参数的方法,但计划在将来添加详细的参数调整程序;
  2. 有很大改进空间,特别是对于检测复杂轨迹拓扑的方法。

TI方法

文献获得

通过检索关键字‘’trajectory inference” and “pseudotemporal ordering”

TI方法的特征

  1. 轨迹的拓扑计算推断还是设计固定
    早期:设计固定拓扑,工作主要集中在沿着这种固定拓扑正确排序细胞
  2. 是否利用先验信息
    先验信息有两面性,可能促进向轨迹正确方向的推断,也可能抑制(有噪声的先验信息);另一方面,先验信息不好获得;【Start cells,End cells,end states,Grouping,branches,Time course】

TI方法的分解

在所有TI方法中,这些组成部分可大致分为两个阶段

  1. 使用降维,聚类或图形构建,转换为简化表示
  2. 沿简化表示排序细胞。

Method

输入数据

原始计数数据(过滤后的细胞和基因)or 标准化表达值,类似于下图:
在这里插入图片描述

  • 细胞质量控制
  • 细胞和基因质量控制文章(已下载PDF): A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor
    绝对中位差MAD.
    (1)细胞质量的两种常用度量是文库大小每个文库中表达特征的数量
    文库大小定义为所有特征(即基因和加标转录本)的计数总和;具有相对小的文库大小的细胞被认为是低质量的,因为在文库制备期间RNA未被有效捕获(即,转化成cDNA并被扩增)。
    每个细胞中表达的特征数量定义为该细胞具有非零计数的特征数量,任何表达基因很少的细胞可能都很差;
    (2) 对数转换可在较小值时提高分辨率,尤其是当原始值的MAD与中值相当或更大时;
    需要移除低质量的细胞以确保技术效果不会扭曲下游分析结果;
    (3)我们去除对数库大小低于 中值对数库大小 3个MAD的细胞;我们还去除了其中对数转换的表达基因数量低于中值3个MAD的细胞;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值