【论文阅读】:Effective multi-modal clustering method via skip aggregation network for scRNA-seq data

Dayu Hu, Ke Liang, Zhibin Dong, Jun Wang, Yawei Zhao, Kunlun He, Effective multi-modal clustering method via skip aggregation network for parallel scRNA-seq and scATAC-seq data, Briefings in Bioinformatics, Volume 25, Issue 2, March 2024, bbae102, https://doi.org/10.1093/bib/bbae102

论文地址:https://academic.oup.com/bib/article/25/2/bbae102/7630472
论文代码:https://github.com/DayuHuu/scEMC

动机

近年来,单细胞RNA测序(scRNA)和单细胞转座酶可及染色质测序(scATAC)数据的并行聚类分析领域出现了增长趋势。然而,现有方法往往将这两种数据模式视为同等重要,忽略了scRNA模式相比scATAC模式包含显著更丰富的信息。这种忽视妨碍了模型从多种模式中获得洞察,从而影响了整体聚类性能。为此,我们提出了一种有效的多模态聚类模型scEMC,用于并行处理scRNA和转座酶可及染色质数据。

贡献

作者设计了一种跳跃聚合网络,能够同时学习细胞间的全局结构信息,并整合来自不同模式的数据。为了保护整合后的细胞表示质量不受稀疏的scATAC数据影响,通过跳跃连接将scRNA数据与聚合表示连接起来。此外,为了有效拟合细胞的真实分布,引入了一种基于零膨胀负二项分布的去噪自编码器,用于处理包含合成噪声的受损数据,同时集成了使用多重损失的联合优化模块。
• 提出了一种有效的并行聚类框架scEMC,该框架减轻了scRNA和scATAC数据信息丰富度不平衡的影响。
• 与以往的方法不同,引入了一个开创性的SAN模块,该模块结合了Transformer结构,能够学习不同特征空间之间的全局结构关系,促进跨不同模式的数据聚合。此外,在聚合表示和scRNA模式数据之间创建了跳跃连接,以保护网络免受退化影响。
• 通过利用基于ZINB损失的去噪自编码器,scEMC使网络能够拟合单细胞数据的真实分布。大量实验表明,scEMC表现优异,超越了其他基准方法。

模型

scEMC的架构旨在跨多种模式学习有效的细胞表示,并减轻不同模式中数据丰富度不平衡的影响,这对于进行并行聚类至关重要。如图所示,scEMC由两个主要模块组成:用于生成细胞表示的基于ZINB的去噪自编码器,以及用于聚合多模态信息并防止网络退化的SAN模块。
在这里插入图片描述
首先,添加了模拟噪声的原始scRNA和scATAC数据被输入到去噪自编码器中。随后,这些数据被嵌入到一个低维空间,并将得到的嵌入拼接以构建共享嵌入Z。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

其次,受到Transformer架构的启发,Z被映射到三个独立的特征空间。保留其中一个特征空间H3用于学习原始特征的转换,而另两个特征空间H1和H2则用于计算细胞之间的全局结构关系。这一过程生成了全局结构增强嵌入,记作 Z ^ \hat{Z} Z^。然后,通过跳跃连接将其与原始scRNA嵌入拼接,旨在保留信息丰富的scRNA模式数据。这产生了聚合的跳跃嵌入 Z ~ \tilde{Z} Z~
在这里插入图片描述
在这里插入图片描述
为了保留scRNA的丰富信息并防止聚合表示的退化,将聚合表示 Z ^ \hat{Z} Z^ 与原始的scRNA嵌入 Zr进行拼接,这形成了建议的跳跃模块的基础。这样的调整有效地将聚合模块转变为一个针对scRNA数据量身定制的微调机制。因此,这种方法不仅利用了多种模态的信息,还确保了最终细胞表示对单模态数据的稀疏特性具有鲁棒性。公式如下:
在这里插入图片描述

再次,SAN模块生成的嵌入随后经过直观的解码过程,通过两个独立的解码器将其解码为不同的模式。

最后,从解码的嵌入中计算出三种分布,即Dropout、Dispersion和Mean。这些分布随后用于计算不同模式的ZINB损失。它作为重构损失,与聚类损失一起,共同优化细胞表示。通过端到端训练和实时优化,获得了能够实现高精度无监督聚类的高质量细胞表示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
scATAC的计算过程与scRNA类似,可以表示如下:
在这里插入图片描述
因此,重构损失如下:
在这里插入图片描述
聚类损失由KL散度损失和深度K均值聚类损失构成。其中KL散度损失和DEC相同,具体如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
深度K均值聚类
在隐藏层进行无监督聚类,聚类损失如下:

[ L_{dk} = \sum_{i=1}^{N} \sum_{j=1}^{K} w_{ij} f(\tilde{Z}_i, V_j), \quad (18) ]
其中,Vj 表示第 j 个聚类中心, f ()计算细胞与聚类中心之间的欧氏距离。而 w_ij表示距离的权重。为了确保梯度平滑性,采用了高斯核来进行特征投影的转换,具体过程如下:

在这里插入图片描述
为了促进收敛,额外引入了权重 w_{ij} 的放大操作:

在这里插入图片描述

然后,将KL散度损失和深度k均值距离损失结合起来,形成最终的聚类损失:

在这里插入图片描述

实验

实验数据
在这里插入图片描述
实验结果
在这里插入图片描述

与之前阅读的几篇文章不一样,这一篇论文从单细胞RNA测序(scRNA)数据的聚类分析扩展到其和单细胞转座酶可及染色质测序(scATAC)数据的并行聚类分析。如果有实验数据,倒也是值得研究的方向之一。

  • 27
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值