生信文献阅读-netNMF-sc 在单细胞测序数据降维和聚类中保留基因间的相互关联信息

原文献:netNMF-sc: Leveraging gene-gene interactions for imputation and
dimensionality reduction in single-cell expression analysis

简要的说就是用非负矩阵分解(NMF),在聚类时对原始的基因相关性保留的比较好。
同时间另一篇文献的目标差不多,只是用的是Random projection:SHARP: Hyper-fast and accurate processing of single-cell RNA-seq data via ensemble random projection
本人生物专业,首先的问题就是非负矩阵分解这个玩意,可以在网上看看知乎大佬的解释
设X ∈Rmn为单细胞测序的counts矩阵,m个转录本,n个细胞。X为非负矩阵,非负矩阵分解将X分解为md的矩阵W和d*n的矩阵H,其中d<<m和n,且W,H的元素均为非负。这个分解可以表示为最小化问题:
在这里插入图片描述这个式子其实代表了X和WH之间的距离,被称为Kullback-Leibler (KL) divergence,还有一种是欧氏距离:||X-WH||2。作者使用KL距离是因为其等价于泊松模型 x i j ∼ P o i s ( x ^ i j ) x_{ij} \sim Pois(\hat {x} _{ij}) xijPois(x^ij)的最大化似然概率,其中 X ^ = W H \hat{X}=WH X^=WH。没有零值膨胀的泊松和负二项分布已经被证明可以较好地拟合droplet-based transcript (UMI) counts数据,而不需要进行log转换以符合高斯分析。
关键来了,由于单细胞RNA测序数据的高dropout情况,直接对count矩阵X进行非负分解会导致W和H受到技术操作误差的影响。为了减少技术误差的影响,作者考虑基因之间的相互作用网络作为先验知识,使用图正规化NMF(Cai et al 2008),即给W添加一个基于基因共表达数据的正则项,此时问题变为:
在这里插入图片描述
其中 λ \lambda λ为正常数,L为基因相互作用网络的拉普拉斯矩阵,而Tr(.)则是矩阵的迹(即矩阵对角元素的和)。
netNMF-sc使用矩阵H来聚类细胞, X ^ = W H \hat{X}=WH X^=WH用以代表矩阵X中的元素。
其中 λ \lambda λ和d通过holdout 验证来调整。(这里有点疑问。)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值