生信文献阅读-netNMF-sc 在单细胞测序数据降维和聚类中保留基因间的相互关联信息

最新推荐文章于 2024-05-19 11:48:18 发布

abc1026497385

最新推荐文章于 2024-05-19 11:48:18 发布

阅读量1.3k

点赞数

分类专栏：单细胞RNA测序文献阅读新手文章标签：经验分享

本文链接：https://blog.csdn.net/abc1026497385/article/details/107612643

版权

新手同时被 3 个专栏收录

14 篇文章 0 订阅

订阅专栏

单细胞RNA测序

1 篇文章 0 订阅

订阅专栏

文献阅读

1 篇文章 0 订阅

订阅专栏

原文献：netNMF-sc: Leveraging gene-gene interactions for imputation and
dimensionality reduction in single-cell expression analysis
简要的说就是用非负矩阵分解（NMF），在聚类时对原始的基因相关性保留的比较好。
同时间另一篇文献的目标差不多，只是用的是Random projection：SHARP: Hyper-fast and accurate processing of single-cell RNA-seq data via ensemble random projection
本人生物专业，首先的问题就是非负矩阵分解这个玩意，可以在网上看看知乎大佬的解释。
设X ∈R^mn为单细胞测序的counts矩阵，m个转录本，n个细胞。X为非负矩阵，非负矩阵分解将X分解为md的矩阵W和d*n的矩阵H，其中d<<m和n，且W,H的元素均为非负。这个分解可以表示为最小化问题：
在这里插入图片描述这个式子其实代表了X和WH之间的距离，被称为Kullback-Leibler (KL) divergence，还有一种是欧氏距离：||X-WH||²。作者使用KL距离是因为其等价于泊松模型 $x_{ij} \sim Pois(\hat {x} _{ij})$ 的最大化似然概率，其中 $\hat{X}=WH$ 。没有零值膨胀的泊松和负二项分布已经被证明可以较好地拟合droplet-based transcript (UMI) counts数据，而不需要进行log转换以符合高斯分析。
关键来了，由于单细胞RNA测序数据的高dropout情况，直接对count矩阵X进行非负分解会导致W和H受到技术操作误差的影响。为了减少技术误差的影响，作者考虑基因之间的相互作用网络作为先验知识，使用图正规化NMF（Cai et al 2008），即给W添加一个基于基因共表达数据的正则项，此时问题变为：
在这里插入图片描述
其中 $\lambda$ 为正常数，L为基因相互作用网络的拉普拉斯矩阵，而Tr(.)则是矩阵的迹（即矩阵对角元素的和）。
netNMF-sc使用矩阵H来聚类细胞， $\hat{X}=WH$ 用以代表矩阵X中的元素。
其中 $\lambda$ 和d通过holdout 验证来调整。（这里有点疑问。）

abc1026497385

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
生信文献阅读-netNMF-sc 在单细胞测序数据降维和聚类中保留基因间的相互关联信息

原文献：netNMF-sc: Leveraging gene-gene interactions for imputation anddimensionality reduction in single-cell expression analysis简要的说就是用非负矩阵分解，在聚类时对原始的基因相关性保留的比较好。同时间另一篇文献的目标差不多，只是用的是Random projection：SHARP: Hyper-fast and accurate processing of single-cel
复制链接

扫一扫

专栏目录