生信论文分享:通过稳健矩阵分解对单细胞rna测序数据进行插值

题目:scRMD: imputation for single cell RNA-seq data via robust matrix decomposition

出处:bioinformatics, doi: 10.1093/bioinformatics/btaa139

摘要:单细胞rna测序技术使人们能够在单细胞级别的分辨率下进行转录组分析,然而由于其常常难以捕捉到表达的基因,因此会导致显著的dropout(姑且译为缺失值)问题,从而影响下游分析,例如使差异表达分析的统计功效降低以及模糊了细胞之间、基因之间的关系。本文将缺失值的插值问题建模为矩阵分解问题,提出scRMD算法,实验证明该算法能够准确地还原缺失值并有助于下游分析,如差异表达分析和细胞聚类。

主要思想:令基因表达矩阵的观测值为p行n列的矩阵Y,其中p是基因数,n是细胞数,表达矩阵的真实值为X,dropout矩阵为S,即,若Xij处出现了dropout现象则Sij=Xij,否则为0,E是期望值为0的随机误差矩阵,故有

Y= X-S+E

这里的一个关键点是,表达矩阵X中虽然可能包含许多细胞,但可以分为少数几个类,基因在不同类的细胞中的期望表达水平不同,故有

x_{ij}= l_{i,c(j)}+f_{i,j},

其中li,c(j)是第j个细胞所属的细胞类型中基因i的期望表达水平,fi,j是随机误差,表示为矩阵形式有

X=L+F

这里可以注意到由于细胞的种类数要远少于细胞个数,因此L是低秩矩阵,从而可以通过最小化

\frac{1}{2}||Y-L+S||_{F}^{2}+\lambda||L||_{\star}+\tau||S||_{1} \quad s.t. \quad L, S\geq 0

来估计低秩的细胞类型矩阵L和dropout矩阵S,其中||\cdot||_{F}, \ ||\cdot||_{\star}, \ ||\cdot||_{1}分别是Frobenious范数,核范数和L1范数。本文使用基于随机矩阵的技术来选择参数\lambda\tau

主要实验结果:

(1)模拟数据的差异表达分析与聚类:

使用不同的正态分布生成代表不同细胞类型的模拟数据,并加入dropout,对生成的模拟数据进行插值,结果如图:

(2)真实数据差异表达分析:

 

如上图,以bulk rna-seq的数据作为金标准,对单细胞数据进行插值后进行差异表达分析,提取p值最小,即最显著的差异表达基因与金标准进行比较,比较两者得到的差异表达基因。

(3)ERCC基因相关系数:

ERCC基因是人为加入的一些已知浓度的基因,用于作为参照物校正其它基因的表达水平,因此可以比较插值前后ERCC基因观测值与真实值的相关系数来衡量插值效果,在5种不同测序技术的数据中的结果如下图所示:

(4)真实数据中的聚类结果:

在两个不同数据中进行插值,并比插值前后的聚类结果,使用调整兰德指数作为指标,结果如下所示: 

(5)超高通量数据插值结果可视化:

超高通量数据通常使用唯一分子标识符(UMI)以去除扩增偏好造成的表达水平失真,采用这种技术的数据通常存在更多的零值。本文考虑三个超高通量数据,正文中给出其中两个的tSNE可视化结果,如下图所示:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值