生信论文分享：通过稳健矩阵分解对单细胞rna测序数据进行插值

斗南花卉市场

于 2022-05-25 16:57:33 发布

阅读量652

点赞数

分类专栏：生信论文阅读文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_40304087/article/details/124966090

版权

生信论文阅读专栏收录该内容

1 篇文章

订阅专栏

题目：scRMD: imputation for single cell RNA-seq data via robust matrix decomposition

出处：bioinformatics, doi: 10.1093/bioinformatics/btaa139

摘要：单细胞rna测序技术使人们能够在单细胞级别的分辨率下进行转录组分析，然而由于其常常难以捕捉到表达的基因，因此会导致显著的dropout（姑且译为缺失值）问题，从而影响下游分析，例如使差异表达分析的统计功效降低以及模糊了细胞之间、基因之间的关系。本文将缺失值的插值问题建模为矩阵分解问题，提出scRMD算法，实验证明该算法能够准确地还原缺失值并有助于下游分析，如差异表达分析和细胞聚类。

主要思想：令基因表达矩阵的观测值为p行n列的矩阵Y，其中p是基因数，n是细胞数，表达矩阵的真实值为X，dropout矩阵为S，即，若Xij处出现了dropout现象则Sij=Xij，否则为0，E是期望值为0的随机误差矩阵，故有

$Y= X-S+E$ ，

这里的一个关键点是，表达矩阵X中虽然可能包含许多细胞，但可以分为少数几个类，基因在不同类的细胞中的期望表达水平不同，故有

$x_{ij}= l_{i,c(j)}+f_{i,j},$

其中li,c(j)是第j个细胞所属的细胞类型中基因i的期望表达水平，fi,j是随机误差，表示为矩阵形式有

$X=L+F$ 。

这里可以注意到由于细胞的种类数要远少于细胞个数，因此L是低秩矩阵，从而可以通过最小化

$\frac{1}{2}||Y-L+S||_{F}^{2}+\lambda||L||_{\star}+\tau||S||_{1} \quad s.t. \quad L, S\geq 0$

来估计低秩的细胞类型矩阵L和dropout矩阵S，其中 $||\cdot||_{F}, \ ||\cdot||_{\star}, \ ||\cdot||_{1}$ 分别是Frobenious范数，核范数和L1范数。本文使用基于随机矩阵的技术来选择参数 $\lambda$ 和 $\tau$ 。

主要实验结果：

（1）模拟数据的差异表达分析与聚类：

使用不同的正态分布生成代表不同细胞类型的模拟数据，并加入dropout，对生成的模拟数据进行插值，结果如图：

（2）真实数据差异表达分析：

如上图，以bulk rna-seq的数据作为金标准，对单细胞数据进行插值后进行差异表达分析，提取p值最小，即最显著的差异表达基因与金标准进行比较，比较两者得到的差异表达基因。

（3）ERCC基因相关系数：

ERCC基因是人为加入的一些已知浓度的基因，用于作为参照物校正其它基因的表达水平，因此可以比较插值前后ERCC基因观测值与真实值的相关系数来衡量插值效果，在5种不同测序技术的数据中的结果如下图所示：

（4）真实数据中的聚类结果：

在两个不同数据中进行插值，并比插值前后的聚类结果，使用调整兰德指数作为指标，结果如下所示：

（5）超高通量数据插值结果可视化：

超高通量数据通常使用唯一分子标识符（UMI）以去除扩增偏好造成的表达水平失真，采用这种技术的数据通常存在更多的零值。本文考虑三个超高通量数据，正文中给出其中两个的tSNE可视化结果，如下图所示：

斗南花卉市场

博客等级

码龄8年

16
原创

221
点赞

390
收藏

27
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

NotImplementedError: Cannot convert a symbolic Tensor解决办法
realspacepen: 确实有用，我的是tf2.2
friedman test的原理及r实现
斗南花卉市场: 两个的话我记得应该是不行，至少得3个
friedman test的原理及r实现
爱吃冰激凌的蜡笔: 请问只有两个数据集的话适不适合用Friedman test呢
local variable referenced before assignment 原因及解决办法
Ls_Jan: 额外补充： global用于声明<全局变量>(不是外部变量，是全局变量)，它最主要的作用，是为了在函数内对<全局变量>进行赋值操作一般情况下函数是可以访问外部变量的(在上面两份示例代码可以明确看出，即使没有global也能访问外部变量)，但只能作为“只读”(只读的意思是不能对其进行赋值操作，赋值的话会得到示例中同款的错误代码)。特别的，内函数想对外函数内的局部变量进行赋值操作？想都不要想，至少我是想不到要怎么实现这个要求。如果真的必须要实现这个需求的话，那么就用个容器，把目标变量装起来(有些场合的确需要这种做法) [code=python] def Test(num): lst=[num] def Add(val): lst[0]+=val return lst[0] return Add func=Test(1) print(func(3))#4 print(func(3))#7 print(func(3))#10 [/code] [code=python] def Test(initString): lst=[initString] def Add(string): lst[0]+=string return lst[0] return Add func=Test('?') print(func('abc'))#?abc print(func('123'))#?abc123 print(func('.'))#?abc123. [/code]
local variable referenced before assignment 原因及解决办法
Ls_Jan: 没懂，是函数闭包吗？给个样例代码瞧瞧？只不过我是遇到过类似情况，原因是出现了同名变量，然后内部变量覆盖了外部变量。示例代码： [code=python] def Test(lst:list): def Inner(data): lst.append(data) lst=[]#同名变量 return Inner lst=[] func=Test(lst) func(3)#报错：UnboundLocalError: local variable 'lst' referenced before assignment [/code] 这个bug与Python语法有关，详细的说就是，局部(内部)变量的优先级最高。在内层函数中出现了"lst=[]"那么内层函数的代码块内，无论语句的先后顺序，lst变量将视作为内部变量而不是外部变量，于是就出现了“lst在定义前被使用”的报错。再附上同样报错的示例代码方便理解 [code=python] lst=[]#外部变量 def Append(data): lst.append(data) lst=[]#【如果将这行注释掉那么代码正常/如期运行】 Append(3) print(lst)#报错：UnboundLocalError: local variable 'lst' referenced before assignment [/code]

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。