论文阅读Deep Multi-Constraint Soft Clustering Analysis for scRNA-Seq Data via Zero-Inflated AE embedding

标题的字符数超过了博客的限制,所以进行了缩写。


Y. He, X. Chen, N. H. Tu and J. Luo, "Deep Multi-Constraint Soft Clustering Analysis for Single-Cell RNA-Seq Data via Zero-Inflated Autoencoder Embedding," in IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 20, no. 3, pp. 2254-2265, 1 May-June 2023, doi: 10.1109/TCBB.2023.3240253.
keywords: {Data models;RNA;Clustering algorithms;Sequential analysis;Noise reduction;Noise measurement;Robustness;Cell similarity;deep clustering;single-cell RNA-seq;ZINB-model based autoencoder},

论文地址:

Deep Multi-Constraint Soft Clustering Analysis for Single-Cell RNA-Seq Data via Zero-Inflated Autoencoder Embedding | IEEE Journals & Magazine | IEEE Xplore

代码:

https://github.com/leaf233/scMCKC

摘要

将细胞聚类成亚群在基于单细胞的分析中扮演着至关重要的角色,这有助于揭示细胞的异质性和多样性。由于单细胞RNA测序数据不断增加且RNA捕获率低,对高维稀疏的单细胞RNA测序数据进行聚类变得具有挑战性。在本研究中,提出了一种单细胞多约束深度软K均值聚类(scMCKC)框架。基于零膨胀负二项(ZINB)模型的自编码器,scMCKC通过考虑相似细胞之间的关联性,构建了一种新的细胞级紧密性约束,以强调簇之间的紧密性。此外,scMCKC利用由先验信息编码的成对约束来指导聚类。同时,利用加权软K均值算法确定细胞群体,根据数据和聚类中心之间的关联性分配标签。

模型

scMCKC通过将细胞相似性表达和二元加权矩阵之间的交叉熵最小化,构建了一种新颖的细胞级紧凑性约束,以调整不当的细胞标签分配。与传统的硬约束聚类方法不同,部分先验知识被编码为软成对约束,以优化潜在特征。此外,还引入了一种加权软K均值算法,并对数据进行膨胀,用于进行聚类并根据相似性确定标签。

scMCKC包括三个主要组件:(i)去噪ZINB模型自编码器,用于对输入的单细胞RNA测序数据进行去噪和降维处理(图1(a))。(ii)基于低维表示的成对约束和细胞级紧凑性约束,分别整合先验信息和相似细胞之间的关联(图1(b))。(iii)加权软K均值聚类对潜在空间中的数据点进行聚类,根据相似度进行标签分配(图1(c))。该模型通过最小化由LZINB、Lkmeans、Lcluster、Lcell和Lpairwise组成的总损失来获得最佳结果。

Denoising ZINB Model-Based Autoencoder

自编码器是一种人工神经网络,由输入层、隐藏层和输出层组成,能够以无监督的方式学习高效的压缩表示[39]。在各种自编码器模型中,去噪自编码器将受到高斯噪声干扰的数据作为输入,然后学习隐藏空间中的潜在表示,以重构原始未受干扰的数据。已经证明在从嘈杂数据中获得优越的潜在特征方面,它具有鲁棒性和高效性[40]。在这里,经过预处理的数据通过去噪预训练的自编码器投影到低维特征空间,用于后续的聚类任务。形式上,经过预处理的输入被表示为 Xc_ij ,其受到噪声干扰:

其中 e 是高斯噪声。假设数据服从混合的零组分和负二项分布,采用基于ZINB模型的自编码器来捕获潜在分布。与传统的自编码器不同,基于ZINB的自编码器利用负二项分布来表征单细胞RNA测序,其中可学习参数为均值 μij 、离散度 θij 和权重系数 πij ,表示失活概率[28]。

论文阅读:ZINB-Based Graph Embedding Autoencoder for Single-Cell RNA-Seq Interpretations-CSDN博客类似,

Multiple Soft Constraints

 细胞级紧凑性约束

尽管单细胞RNA测序数据的表达信息嵌入在潜在层中,但在聚类层中忽略了细胞之间的相关性。由于单细胞RNA测序数据中排除了细胞之间的直接关系,因此提出了细胞级紧凑性约束,以在相似细胞之间共享信息并获得聚类友好的细胞嵌入。此外,由于噪声和高维度,细胞之间的相似性可能被错误估计。不正确的相似性可能在一定程度上误导聚类过程。
为了在细胞级别调整不正确的聚类分配,利用从潜在空间生成的判别概率向量 di 计算相似性矩阵 S。具体而言,假设 rk 是潜在空间中的可学习聚类中心,类似于 DEC [23],定义了判别概率 di 如下:
 

基于判别概率,相似性矩阵计算如下:


其中 \( \|\cdot\|_2 \) 表示 L2 范数[42]。与潜在表示相比,细胞相似性矩阵的构建增强了主对角线元素的表达水平。因此,引入了一个权重矩阵来减轻这种影响,其中主对角线上的值为0,其余值为1,如下所示:
\[ B_{ij} = \begin{cases} 1, & i = j \\ 0, & i \neq j \end{cases} \]
通常情况下,属于相同标签的数据点应该彼此更接近,而来自不同聚类的数据点则应保持相互远离。因此,利用权重矩阵和相似性矩阵,将这些矩阵结合起来计算以下聚类紧凑性损失:
\[ L_{\text{cell}} = -\sum_{i=1}^{n} \sum_{j=1}^{n} \left(B_{ij} \log S_{ij} + (1 - B_{ij}) \log (1 - S_{ij})\right) \]
通过这种方式,介于聚类区域之间的数据点应该更紧密,不正确的标签分配应该通过细胞相似性紧凑性约束进行调整。

成对约束

由于先验信息可用于指导细胞整合,因此利用成对约束将先验信息转化为两种类型的软约束,包括必连(ML)和禁连(CL)[32]。前者描述了细胞的联合信息,使预定义的相似实例具有较小的差异。而后者指示了分离的信息,以放大具有较少相关性的实例之间的不相似性。必连约束的损失通过分配相似的软标签来增强两个实例:
\[ L_{\text{ML}} = -\sum_{(a,b) \in \text{ML}} \log(q_a^j \times q_b^j) \]
相比之下,禁连的损失更加注重分配不同的软标签:
\[ L_{\text{CL}} = -\sum_{(a,b) \in \text{CL}} \log \left(1 - q_a^j \times q_b^j\right) \]
因此,成对损失是必连和禁连的总损失:
\[ L_{\text{pairwise}} = L_{\text{ML}} + L_{\text{CL}} \]

加权软K均值聚类

在上述小节中,原始数据被投影到低维潜在变量 Z 组成。因此,作者在潜在嵌入空间上进行聚类,而不是在去噪后的数据上进行。假设在学习空间中有 K 个聚类,其中心为 cr(1 ≤ r ≤ K)。通常情况下,K均值算法通常用于对潜在表示进行聚类。然而,数据点只能被分配到一个正确的聚类中,并且在分配的聚类中被认为是相等的。相比之下,软K均值将权重集成到K均值算法中,使数据点距离聚类中心更近或更远[35]。在这里,使用加权软K均值算法在潜在空间上实现聚类任务,其目标函数如下:
\[ L_{\text{kmeans}} = \sum_{i=1}^{n} \sum_{r=1}^{K} w_{ir} \times \|Z_i - c_r\|^2 \]
其中 $w_{ir}$ 指的是将潜在特征 $Z_i$ 分配给第 k 个类别的权重。基于上述变量,$c_k$ 表示第 k 个聚类中心如下所示:
\[ c_k = \frac{\sum_{i=1}^{n} w_{ir}Z_i}{\sum_{i=1}^{n} w_{ir}} \]

观察到聚类中心是潜在特征的加权和。一方面,对于那些距离聚类中心更近的数据点,相应的权重应增加。另一方面,对于那些远离聚类中心的数据点,相关权重应减少。因此,权重 $w_{ir}$ 应该是与潜在特征和聚类中心相关的递减函数的闭合形式[43]。基于亲和概率,将硬标签分配任务转换为加权软聚类任务。考虑到指数函数会平滑梯度下降优化过程,通过高斯核函数计算的权重如下所示:
\[ \bar{w}_{ir} = \exp \left( -\frac{\|Z_i - c_r\|^2}{\sum_{k=1}^{K} \exp \left( -\frac{\|Z_i - c_k\|^2}{\sum_{k=1}^{K} \exp \left( -\frac{\|Z_i - c_k\|^2}{2} \right)} \right)} \right) \]

为了加速算法的收敛,基于马尔可夫聚类方法对权重进行膨胀,如下所示:
\[ w_{ir} = \frac{\bar{w}_{ir}^\alpha}{\sum_{j=1}^{K} \left( \bar{w}_{ij}^\alpha \right)} \]

其中 $\alpha$ 是一个超参数,默认值为 1。加权 K 均值聚类算法的主要目的是将数据点分配到其最近的聚类中心。然而,这个过程忽略了相似细胞之间的成对距离。考虑到相似细胞更有可能属于同一聚类,引入了一种新的 Kullback-Leibler(KL)[45] 散度,以保留和增强细胞之间的相关性。采用学生 t-分布核函数[46]描述数据点之间的成对相似性,因为该分布的尾部更重,比高斯分布更具有厚重的尾部。这种特征允许潜在空间中的较大距离描述高维空间中的适度距离,从而避免将各种聚类挤在一起。

通过学生 t-分布测量的软标签分布计算如下:

总损失如下:

实验

实验数据

实验结果


这篇文章的创新点在于多约束,在细胞级约束的基础上引入了半监督的成对约束,即先验知识。

  • 34
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值