原文献:netNMF-sc: Leveraging gene-gene interactions for imputation and
dimensionality reduction in single-cell expression analysis
简要的说就是用非负矩阵分解(NMF),在聚类时对原始的基因相关性保留的比较好。
同时间另一篇文献的目标差不多,只是用的是Random projection:SHARP: Hyper-fast and accurate processing of single-cell RNA-seq data via ensemble random projection
本人生物专业,首先的问题就是非负矩阵分解这个玩意,可以在网上看看知乎大佬的解释。
设X ∈Rmn为单细胞测序的counts矩阵,m个转录本,n个细胞。X为非负矩阵,非负矩阵分解将X分解为md的矩阵W和d*n的矩阵H,其中d<<m和n,且W,H的元素均为非负。这个分解可以表示为最小化问题:
这个式子其实代表了X和WH之间的距离,被称为Kullback-Leibler (KL) divergence,还有一种是欧氏距离:||X-WH||2。作者使用KL距离是因为其等价于泊松模型
x
i
j
∼
P
o
i
s
(
x
^
i
j
)
x_{ij} \sim Pois(\hat {x} _{ij})
xij∼Pois(x^ij)的最大化似然概率,其中
X
^
=
W
H
\hat{X}=WH
X^=WH。没有零值膨胀的泊松和负二项分布已经被证明可以较好地拟合droplet-based transcript (UMI) counts数据,而不需要进行log转换以符合高斯分析。
关键来了,由于单细胞RNA测序数据的高dropout情况,直接对count矩阵X进行非负分解会导致W和H受到技术操作误差的影响。为了减少技术误差的影响,作者考虑基因之间的相互作用网络作为先验知识,使用图正规化NMF(Cai et al 2008),即给W添加一个基于基因共表达数据的正则项,此时问题变为:
其中
λ
\lambda
λ为正常数,L为基因相互作用网络的拉普拉斯矩阵,而Tr(.)则是矩阵的迹(即矩阵对角元素的和)。
netNMF-sc使用矩阵H来聚类细胞,
X
^
=
W
H
\hat{X}=WH
X^=WH用以代表矩阵X中的元素。
其中
λ
\lambda
λ和d通过holdout 验证来调整。(这里有点疑问。)
生信文献阅读-netNMF-sc 在单细胞测序数据降维和聚类中保留基因间的相互关联信息
最新推荐文章于 2024-05-04 07:30:04 发布