论文阅读:Denoising adaptive deep clustering with self-attention mechanism on single-cell sequencing data

Yansen Su, Rongxin Lin, Jing Wang, Dayu Tan, Chunhou Zheng, Denoising adaptive deep clustering with self-attention mechanism on single-cell sequencing data, Briefings in Bioinformatics, Volume 24, Issue 2, March 2023, bbad021, https://doi.org/10.1093/bib/bbad021

论文地址:

Denoising adaptive deep clustering with self-attention mechanism on single-cell sequencing data | Briefings in Bioinformatics | Oxford Academic (oup.com)

论文代码:

https://github.com/LRX2022/scDASFK

摘要

大量研究已经展示了单细胞RNA测序(scRNA-seq)在研究单细胞层面的多样性和生物功能方面的应用。聚类识别未知细胞类型,对于scRNA-seq样本的下游分析至关重要。然而,scRNA-seq样本的高维度、高噪声和普遍存在的丢失率给样本的聚类分析带来了显著挑战。为此,作者提出了一种新的基于去噪自编码器和自注意力机制的自适应模糊聚类模型,称为scDASFK。该模型通过对比学习将细胞相似信息整合到聚类方法中,并使用深度去噪网络模块来去噪数据。scDASFK包含一个自注意力机制以进一步去噪,并实现了用于迭代聚类的自适应聚类优化函数。为了使去噪后的潜在特征更好地反映细胞结构,引入了一种新的自适应反馈机制,通过聚类结果监督去噪过程。

模型

scDASFK模型由两部分组成:深度去噪网络(DN)和深度聚类网络(CN)。为了更好地消除数据中噪声对模型的影响,作者提出了一种自适应反馈机制,将聚类信息引入深度去噪网络(DN),以实现两个网络的联合优化。通过这种方式,去噪后的数据可以更准确地反映真实的数据情况,并获得更好的聚类结果。

深度去噪网络(DN)

为了从scRNA-seq数据中学习有效特征,作者通过向网络中添加噪声来提高网络的鲁棒性。同时,通过比较添加噪声和未添加噪声的同一网络的数据特征来增强对数据有效特征的准确学习。网络流程图如图2A所示。

具体而言,基因表达矩阵表示为 \( X \in \mathbb{R}^{V \times G} \),其中 \( V \) 是细胞数量,\( G \) 是筛选后的基因维度。网络由三部分组成:编码器、解码器和隐藏层。首先,我们使用编码器将损坏的数据 \( X \) 映射到潜在变量 \( H \)。输出结果 \( H \) 通过以下公式计算:
\[ H = \phi (w_e H_0 + b_e) \]
其中,\( \phi \) 是激活函数,\( w_e \) 是编码器的权重矩阵,\( b_e \) 是编码器的偏置。\( H_0 = X + N_X \),且 \( N_X \) 是均匀分布的噪声。

然后,通过损坏的全连接神经网络(隐藏层)将 \( H \) 映射到 \( Z \):
\[ Z = \phi (\text{dropout} (w_t H + b_t)) \]
其中,\( w_t \) 是隐藏层的权重矩阵,\( b_t \) 是隐藏层的偏置。"dropout"表示随机将网络层输出数据设置为零。

最后,我们通过解码器得到重建数据 \( \tilde{X} \):
\[ \tilde{X} = \phi (w_d Z + b_d) \]
其中,\( w_d \) 是解码器的权重矩阵,\( b_d \) 是解码器的偏置。该网络使用LeakyReLU激活函数。

为了更好地监督模型训练并使模型更稳定,我们通过解码层重建输入数据。我们使用以下损失函数来确保重建数据与输入数据之间的误差最小:
\[ L_{dn1} = \frac{1}{n} \sum_{i=1}^n (X_i - \tilde{X}_i)^2 \]

在网络学习过程中,我们使用未添加噪声的网络构建伪相似性矩阵来监督添加噪声的网络,并通过这种对比学习方法探索细胞之间的关系。具体的损失函数如下:


其中,\( \cdot \) 表示两个细胞的点积,\( I \) 是单位向量。\( Z_i \) 和 \( Z_j \) 表示通过未添加噪声的网络获得的细胞 \( i \) 和细胞 \( j \) 的潜在特征。\( ZD \) 和 \( ZDj \) 表示通过添加噪声的网络获得的细胞 \( i \) 和细胞 \( j \) 的潜在特征。\( I _Z_i \cdot I _Z_j \) 表示细胞 \( i \) 和细胞 \( j \) 之间的相似性得分。

自适应反馈机制


高噪声数据可能会导致网络在对比学习过程中获得的潜在特征失去一些关键的特征信息。因此,我们设计了一种自适应反馈机制,通过将聚类信息引入深度去噪网络(DN)来学习潜在特征,以更好地表示真实数据。计算如下:
\[ L_{dn3} = \frac{1}{n} \sum_{i,j=1}^n (I u_i \cdot I u_j - I Z_i \cdot I Z_j)^2 \]

在公式(6)中,\( u \) 代表由深度聚类网络(CN)获得的隶属度矩阵。它通过层次聚类初始化,并在后期由深度CN更新。

深度去噪网络(DN)的总损失函数如下:
\[ L_{DN} = \lambda_1 L_{dn1} + \lambda_2 L_{dn2} + \lambda_3 L_{dn3} \]
其中,\( \lambda_1 \)、\( \lambda_2 \) 和 \( \lambda_3 \) 是平衡参数。在实验中,我们默认 \( \lambda_1 = \lambda_2 = \lambda_3 = 1 \)。

深度聚类网络(CN)

深度去噪网络(DN)获得的潜在特征 \( Z \) 仍然包含噪声。因此,我们进一步向潜在特征 \( Z \) 添加不同的噪声,以增加数据的丰富性。计算如下:
\[ Z_b = \phi (w_1 Z_0 + b_1) \]
\[ Z_c = \phi (\text{dropout} (w_2 Z_b + b_2)) \]
其中,\( Z_0 = Z + N_Z \),\( N_Z \) 是均匀分布的噪声。\( \phi \) 是LeakyReLU激活函数。\( w_1 \)、\( w_2 \) 和 \( b_1 \)、\( b_2 \) 是网络的权重和偏置。模型将输入 \( Z \)、\( Z_b \) 和 \( Z_c \) 输入自注意力机制(具体公式和设置在补充方法说明中描述),以进一步从scRNA-seq数据中提取有价值的信息并减少噪声信息对聚类结果的影响。其输出为 \( Z_a \)、\( Z_b \) 和 \( Z_c \)。

最后,基于带有加权自适应损失函数的模糊K均值【36】,我们设置了一个自适应聚类损失函数进行聚类。网络流程图如图2B所示。深度聚类网络(CN)的损失函数如下:
\[ L_{CN} = \sum_{i=1}^{n} \sum_{j=1}^{k} w_{ij} u_{ij} || \tilde{Z}_i - C_j ||^2 \]
其中,约束条件为:
\[ \tilde{Z} = Z_a + Z_b + Z_c \]
\[ \sum_{j=1}^{k} u_{ij} = 1, 0 \leq u_{ij} \leq 1 \]

在公式(10)中,是网络迭代优化的自适应损失权重。\( C_j \) 表示第 \( j \) 类的聚类中心。\( u_{ij} \) 表示第 \( i \) 个细胞属于第 \( j \) 类的概率。\( Z_a \)、\( Z_b \) 和 \( Z_c \) 表示自注意力机制后的潜在特征。\( \sigma \) 是控制网络对离群点鲁棒性的平衡因子。

聚类中心 \( C_j \) 的更新公式为:
\[ C_j = \frac{\sum_{i=1}^{n} w_{ij} u_{ij} \tilde{Z}_i}{\sum_{i=1}^{n} w_{ij} u_{ij}} \]

\( u_{ij} \) 的更新公式为:
\[ u_{ij} = \frac{\exp(-|| \tilde{Z}_i - C_j ||_\sigma)}{\sum_{j=1}^{k} \exp(-|| \tilde{Z}_i - C_j ||_\sigma)} \]
其中,
\[ || \tilde{Z}_i - C_j ||_\sigma = \frac{(1 + \sigma) (|| \tilde{Z}_i - C_j ||^2)}{(|| \tilde{Z}_i - C_j ||^2 + \sigma)} \]

实验


这个方向真的师最近几年的研究热点,最近几周看了很多篇很相近的论文,从不同角度提出对应的深度聚类方法已解决单细胞RNA测序数据聚类分析问题。

  • 31
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值