一文助你了解单细胞转录组拟时序分析软件

前言

       目前进行细胞轨迹分析的方法和软件非常之多,软件之间算法有什么差异?对于我们的分析结果有何影响?为了后续分析软件选择、分析不发愁,事半功倍,跟着小编来了解下!

01  拟时序分析背景及意义

       在整个细胞生命发育过程中,细胞会从一种功能“形态”分化到另外一种功能“形态”。不同形态的细胞会表达不同的基因,以实现它们特定阶段的功能。当细胞在不同形态之间转变时会经历转录重置的过程(一些基因被沉默,一些则被重新激活)。由于通过纯化实验很难获取两个稳定形态细胞之间的中间态,因此这些细胞的中间形态通常难以表征。单细胞转录组测序无需纯化,基于数据分析,可以表征这些处于中间形态的细胞。

       拟时间是对单个细胞在诸如细胞分化等过程中变化程度的度量。在许多生物过程中,细胞变化并不是完全同步的。研究发现单细胞分化等生物过程中细胞会分布在不同的分化阶段,在同一时期捕获的一组细胞中,有些细胞可能经历了分化过程中的几个阶段,有些可能尚未开始分化。拟时间是细胞分化进度的抽象单位,它是从细胞到轨迹起始点测得的最短距离,轨迹的总长度是根据一个细胞从起始形态到终止形态的转录变化总量来定义的。

02  拟时序分析软件——Monocle

       Monocle(http://cole-trapnell-lab.github.io/monocle-release/docs/)是众多拟时间分析软件中比较流行的一款,它依靠一种叫做反向图嵌入的机器学习技术来构建单细胞轨迹。将每个细胞必须经历的基因表达变化作为动态生物过程的一部分进行机器学习,一旦获取到基因表达变化的整体“轨迹”,Monocle可以将每个细胞放置在轨迹中的适当位置,并通过差异分析模块获取在轨迹过程中受调控的基因。

       Monocle 对于拟时间分析类软件必须要解决的问题做了如下处理:

       第一个问题:如何选取基因集?

       仅仅依赖于文献和教科书的“明星基因”,很有可能受到已有经验的限制,Monocle采用dpFeatuer方法构建基因集,即tsne/umap分群之后的差异基因。

       第二个问题:如何排序?选取分支?

       其是通过反向图嵌入方法来处理的,通俗来讲就是先降维,抓取主要特征,降低计算量;其次构建生成树,不断迭代直至收敛。选定一个节点作为根,每个细胞的伪时间计算为其沿树到根的最短距离,并根据主图自动分配其分支。

       在拟时间推断方面,Monocle3沿用了Monocle2的迭代算法。值得注意的是,作者在Workshop、主页和相关文献中都着重指出,Monocle3是一个半监督式的拟时序分析工具,并没有内嵌合理且有效的起点算法,所以我们在使用Monocle3时,一定要凭借自己的生物学背景选定合适的起点!

03  拟时序分析软件——Diffusion Map

       DiffusionMap (扩散映射)是一款由Laleh Haghverdi 团队开发的R软件,通过高斯模型和马尔科夫模型,把单细胞(scRNA)表达矩阵的非线性结构映射为连续性结构,并关联至对应细胞分组,这款软件是基于内在扩散样动力学识别细胞分化轨迹的方法。

       软件开发团队也针对单细胞数据常见的零值、缺失值和采样密度异质性情况,对软件的计算模型和高斯kenralwidth 筛选进行了优化,确保在数据的遍历扩散过程是连续型的同时细胞之间的扩散距离仍然有较高的灵敏度。

       Diffusion Map 具体数据计算示意图如下:

04  拟时序分析软件——PseudotimeDE

       PseudotimeDE(https://github.com/SONGDONGYUAN1994/PseudotimeDE)使用子采样(subsampling)来帮助估计拟时序的随机性,通过广义可加模型(GAM)来拟合单个基因表达值和拟时序的关系,并使用置换检验(permutation test)来产生统计学上严格的p值。与现有方法相比,PseudotimeDE 在考虑伪时间推理的不确定性方面具有优势。PseudotimeDE不仅保证产生的p值有严格的统计学意义,还实现了更高的检验效力(power)和更好的对错误发现率的控制(FDR control)。

       PseudotimeDE的统计方法由四个主要步骤组成:子采样、伪时间推断、模型拟合和假设检验(如下图)。前两步是在细胞水平上进行的,包括所有信息基因(其选择取决于假时间推理方法,例如 Slingshot 和 Monocle3-PI)),而最后两步是对每个潜在的DE基因进行的。

参考文献:

 Cao, J., Spielmann, M., Qiu, X. et al. The single-cell transcriptional landscape of mammalian organogenesis. Nature 566, 496–502 (2019). https://doi.org/10.1038/s41586-019-0969-x.

Laleh H., Florian B., Fabian JT., Diffusion maps for high-dimensional single-cell analysis of differentiation data, Bioinformatics, Volume 31, Issue 18, September 2015, Pages 2989–2998, https://doi.org/10.1093/bioinformatics/btv325.

Song, D., Li, J.J. PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data. Genome Biol 22, 124 (2021). https://doi.org/10.1186/s13059-021-02341-y.

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LVS(Linux Virtual Server)是一种基于 Linux 系统的负载均衡集群技术,它主要用于将网络流量分发到多个服务器上,以提高系统的可靠性、可扩展性和性能。 LVS 集群一般包括四个组件:调度器(LVS 调度器)、前端服务器(负载均衡器)、后端服务器(真实服务器)和存储服务器(用于共享数据)。首先,调度器接收来自客户端的请求,然后根据配置的调度算法(如轮询、加权轮询、最小连接数等)将请求分发到多个前端服务器。前端服务器接收到请求后,通过相应的负载均衡算法将请求转发到后端的真实服务器上进行处理。在整个过程中,存储服务器用于存放共享的数据,以确保所有的真实服务器都能获取到相同的数据,并提供一致的服务。 LVS 集群的优点是能够提高网站的稳定性和可靠性,当某一台服务器出现故障时,调度器会自动将请求分发到其他可用的服务器上,从而保证服务的连续性。同时,LVS 集群还能够通过增加前端服务器和后端服务器的数量来提高系统的性能和吞吐量,以满足不断增长的用户需求。 在实际应用中,LVS 集群需要合理配置,包括选择合适的调度算法、调整每台服务器的权重、选择适当的硬件设备等。此外,还需要及时监控集群的运行状态,及时发现和解决故障,以确保整个系统的正常运行。 总的来说,LVS 负载均衡集群是一种强大而高效的集群技术,能够帮企业提高系统的可靠性和性能,是现代互联网应用中不可或缺的重要组成部分。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值