【论文阅读】Attention-based deep clustering method for scRNA-seq cell type identification

论文地址:Attention-based deep clustering method for scRNA-seq cell type identification | PLOS Computational Biology

代码地址:GitHub - LiShenghao813/AttentionAE-sc: A attention-based clustering methods for scRNA-seq data


摘要

单细胞测序(scRNA-seq)技术相较于传统的整体RNA测序,能够以更高的分辨率揭示细胞间的差异性,从而揭示生物研究中的异质性。scRNA-seq数据集的分析依赖于细胞亚群的划分。当缺乏合适的参考信息(例如特定标记基因或单细胞参考图谱)时,无监督聚类方法成为主要选择。然而,scRNA-seq数据本身具有稀疏性和高维性的特点,这对传统聚类方法构成了挑战。因此,研究人员提出了多种基于深度学习的方法来应对这些挑战。由于现有方法大多只能部分改善效果,因此仍需一种更加全面的方法。

本文提出了一种新颖的scRNA-seq数据聚类方法,命名为AttentionAE-sc(基于注意力机制融合的单细胞自动编码器)。该方法通过注意力机制融合了两种不同的scRNA-seq聚类策略:一是基于零膨胀负二项分布(ZINB)的方法,用于处理掉失事件的影响;二是基于图自动编码器(GAE)的方法,利用细胞邻居之间的信息引导降维过程。通过对去噪嵌入和拓扑嵌入的迭代融合,AttentionAE-sc能够轻松获得有利于聚类的细胞表示,使得相似细胞在隐藏空间中更为接近。

与多种最先进的基线方法相比,AttentionAE-sc在16个真实scRNA-seq数据集上展现出了优异的聚类性能,且无需预先指定聚类的数量。此外,该方法在学习细胞表示方面效果更好,表现出更强的稳定性和鲁棒性。更进一步,AttentionAE-sc在一个乳腺癌单细胞图谱数据集中实现了卓越的细胞识别能力,并为不同细胞亚型之间的异质性提供了有价值的生物学洞见。

引言

单细胞RNA测序(scRNA-seq)技术有助于在细胞层面探究细胞的异质性与多样性,为多种生物学研究提供了更为细致的机制视角 [1, 2]。准确识别细胞亚群对于许多后续分析至关重要,因此也涌现出了一些辅助工具 [3, 4]。这些工具划分细胞亚群的基本能力主要依赖于无监督聚类方法,这在缺乏细胞图谱的scRNA-seq数据集中是一种可行的解决方案 [5]。然而,scRNA-seq分析中的主要计算挑战包括数据的高度稀疏性、高维性以及批次效应 [6, 7]。为了解决这些问题,研究者提出了越来越多的聚类方法用于细胞分群,并尝试同时应对上述难题 [8, 9, 10, 11],但目前尚未出现最优方法。

近年来,其他领域的一些聚类方法被引入scRNA-seq数据分析中。例如,RaceID [12] 将K-means算法应用于scRNA-seq数据的聚类分析,并引入离群检测以提升其识别稀有细胞类型的能力。然而,由于K-means在聚类中心初始化时较为敏感,容易陷入局部最优。SC3 [13] 通过多次运行K-means并集成其结果来缓解该问题。另一类主流方法是基于社区发现的聚类算法,如Louvain和Leiden算法 [14, 15],该类方法在由细胞组成的网络中迭代地聚合节点,从而逐步划分出不同的细胞类别。与其他聚类方法相比,基于社区发现的算法无需事先指定聚类数量,因此在缺乏先验知识的scRNA-seq数据集中具有更强的适用性。

为了更有效地整合单细胞聚类、降维、数据去噪和批次效应处理等过程,研究者提出了多种基于深度学习的工具。DCA [16] 使用去噪自编码器(DAE)最小化零膨胀负二项分布(ZINB)损失函数,对原始scRNA-seq数据进行去噪与缺失值补全。scDeepCluster [9] 融合了深度嵌入聚类(DEC)方法 [17],可同时学习特征表示并优化聚类性能。DEC是一种自优化聚类方法,能输出细胞的软标签。DESC [18] 则结合了堆叠自编码器与DEC方法,进一步探讨了软聚类在去除批次效应中的可解释性与有效性。ScVI(Single-cell Variational Inference)[19] 通过近似ZINB分布建模表达值,同时还发展出一个综合工具包scvi-tools [20],用于在单细胞数据分析中整合多种任务。

然而,上述方法并未在特征提取阶段直接考虑细胞间的交互信息。为显式引入细胞之间的信息,图神经网络(GNN)被应用于scRNA-seq聚类分析中 [10, 21],以提取细胞的拓扑嵌入信息,从而更有效地学习有利于聚类的表示 [11]。与之前的方法不同,GNN方法在没有先验知识的情况下需要手动构建细胞之间的拓扑信息。主要包括两种图结构:细胞-基因图和细胞-细胞图。scDeepSort [22] 提出了一种基于基因表达值构建细胞-基因图的方法,并基于加权GNN模型进行细胞注释。graph-sc [21] 也采用类似的图结构策略,并利用图自动编码器(GAE)[23] 对scRNA-seq数据进行聚类分析。此外,scGNN [10] 使用细胞-细胞图表示细胞之间的关系,图中节点为细胞,通过多模态自编码器迭代构建细胞间连接关系。与graph-sc类似,scGNN提取图编码器的输出作为低维表示,再借助K-means或社区检测等算法获得聚类结果。scGAC [11] 同样基于细胞-细胞图,采用自优化方法同时进行表示学习与聚类优化。细胞的拓扑嵌入由基于图注意力网络的GAE获得,最终聚类结果通过DEC完成。此外,SCEA使用多层感知机(MLP)编码器进行初步降维,然后采用类似的拓扑表示学习策略并取得了优秀的聚类性能 [24]。

受上述研究启发,我们提出了一种基于注意力机制的scRNA-seq聚类方法,命名为AttentionAE-sc(基于注意力融合的单细胞自动编码器)。如图1所示,该方法并行使用DAE与GAE来学习细胞嵌入表示。由于拓扑嵌入在聚类阶段易受噪声边影响,因此我们设计了一个基于多头注意力机制的信息融合模块,融合拓扑信息与去噪信息,以重构细胞间的关系(见补充图S1)。通过从scRNA-seq数据集中同时学习多种嵌入表示,信息融合模块得以迭代优化,从而学习出更有利于聚类分析的表示,使得相似细胞在隐藏空间中更加接近。

为了获得软标签形式的亚群划分,AttentionAE-sc采用了自优化的聚类过程(DEC)。通过使用Leiden算法初始化聚类中心,我们可以在不预先指定聚类数量的情况下获得细胞的分群标签。AttentionAE-sc在16个scRNA-seq数据集上展现出了卓越的性能。首先,在聚类性能方面,AttentionAE-sc完全优于其他基于社区发现的算法。令人惊讶的是,它在多个需要预先指定聚类数量的K-means类方法中也取得了更优的结果。其次,与其他基于DEC的方法(或不使用DEC的方法)相比,AttentionAE-sc能够学习出更适合聚类的细胞表示,在遭遇随机扰动(如下采样或人为引入掉失)时依然表现出很强的鲁棒性与稳定性。最后,我们将AttentionAE-sc应用于一个大规模乳腺癌单细胞图谱数据集的聚类分析中,在聚类结果与真实细胞类型之间的相似性以及预测标签所体现的生物学意义方面均取得了令人满意的结果。

模型

2.1 数据预处理

预处理过程由 Scanpy 包 [4] 实现。给定一个原始计数矩阵 RN×M(包含 N 个细胞和 M 个基因),首先会过滤掉所有计数为零的细胞或基因,保留 n 个有效细胞。

在对每个细胞进行归一化后,数据通过简单的缩放操作进行平滑处理。随后,提取变异性最高的前 2500 个基因,构成基因表达矩阵 Xn×2500,用于构建细胞-细胞图。同时,与之对应的原始计数矩阵 Rn×2500 被用于 DAE(去噪自动编码器)的训练。

最终,Xn×m 被转换为 z-score 形式的表达矩阵 Xz-score,使得每个所选基因的平均值为 0,方差为 1。

此外,AttentionAE-sc 的另一个输入——邻接矩阵 An×n,是通过测量细胞间距离 dij(即细胞 i 与细胞 j 之间的距离)并应用高斯核函数计算得到的。该高斯核函数是一个关于距离 dij的递减函数,形式如下:

其中,Aij 表示细胞 i 与细胞 j 之间的相似度,距离越近,相似度越高。该邻接矩阵用于构建细胞之间的图结构,以辅助 AttentionAE-sc 的图编码器学习更有效的细胞表示。

2.2 图自编码器

细胞之间的拓扑信息可以通过图自编码器(GAE)[23] 获得。在经典的 GAE 中,编码器由图神经网络(GNN)层组成,用于生成节点嵌入;而解码器则通过生成一个软重构矩阵来重构邻接矩阵。

在本研究中,编码器部分采用了图卷积网络(GCN)[25] 作为基本单元,其在第 l 层中对细胞嵌入 Hl的更新方式如下:

其中,A~ 表示归一化处理后的邻接矩阵,H^{l-1} 表示上一层的嵌入,tanh 为激活函数,用于增加非线性表达能力。该结构可以有效捕捉细胞间的关系,从而提取出更具生物学意义的拓扑嵌入。

2.3 去噪自动编码器(Denoising Autoencoder)

ZINB(零膨胀负二项分布)或 NB(负二项分布)被认为是 scRNA-seq 数据的一种近似分布形式 [16]。基于 ZINB 的自动编码器被用于提取去噪嵌入,以克服 scRNA-seq 数据集的离散性和过度离散性问题:

其中,丢弃概率 π应该位于合理的数值范围(0–1)内,因此采用 sigmoid 函数进行标准化处理;而均值 μ 与离散度 θ 是非负数,因此选择指数函数作为激活函数。

为了防止过拟合,均值 μ 会根据每个细胞的原始计数总量进行归一化处理(即使用 Diag[] 操作进行标准化)。其中的所有 W 都是可学习的参数。

最终,DAE 的损失函数为 ZINB 似然函数的负对数形式:

该损失函数通过最大化输入数据在 ZINB 分布下的似然,来优化模型的去噪性能,从而更好地恢复真实的基因表达信号。

2.4 信息融合块

注意力机制在自然语言处理和计算机视觉中已经展示了其有效性 [26, 27]。在注意力层中,会计算一个全局注意力分数,用以根据样本之间的相关性引导特征的提取。因此,构建了一个信息融合块,通过多头注意力机制将去噪嵌入和拓扑嵌入融合在一起:

其中,查询向量 QlM由 GAE(图自编码器)生成的拓扑嵌入 Hl计算得到,而键 KlM 和值 VlM 则由 DAE(去噪自编码器)生成的去噪嵌入 El计算得到。注意力分数通过点积注意力机制(dot-product attention)进行计算。这里的 M 表示多头注意力的头数,所有的 W 和 W^M 都是可学习的参数。

在 AttentionAE-sc 中,采用了两个信息融合模块,因此通过 GAE 和 DAE 的第 l 层嵌入分别计算出两个输出 Rl。其中,第一个输出 R1被用作下一层编码器(由全连接层和 ReLU 激活函数组成)的输入;第二个输出 R2 则被用作聚类阶段的特征表示(即最终的嵌入 Z)。

2.5 深度嵌入聚类

在聚类阶段,使用 DEC [17] 进行自优化软聚类。

整体损失如下:

其中,r1和r2为平衡多目标优化的系数(默认值为0.1),聚类过程仅在微调阶段进行。AttentionAE-sc模型基于Python 3.8实现,所有隐藏层的维度依次设置为256、64、16、64、256,使用两个多头注意力块(头数为8)。为降低模型训练的时间成本,DAE(去噪自编码器)与GAE(图自编码器)共享一个降维线性层。在模型训练与微调过程中,优化器采用Adam,学习率为0.001,并应用L2范数最大值为3的梯度裁剪策略。在微调阶段,若标签变化数量小于总数的1/1000,则提前终止训练。

实验

讨论

在本研究中,提出了一种新颖的基于深度学习的scRNA-seq聚类方法——AttentionAE-sc。该方法依赖于一个基于注意力机制的信息融合模块,将去噪自动编码器与图自动编码器相结合,从而学习出有利于聚类的细胞表示。通过基于ZINB的自编码器,AttentionAE-sc不仅可以有效应对scRNA-seq数据中的稀疏性与掉失事件,同时还显式地考虑细胞之间的关系以指导降维过程,从而获取更适合聚类的表示。因此,AttentionAE-sc 能够从稀疏的scRNA-seq数据中轻松提取去噪特征,并在无需指定聚类数的前提下获得理想的聚类划分。

在16个scRNA-seq数据集上,AttentionAE-sc展现出卓越性能,其平均ARI(调整兰德指数)得分比9种基线方法高出约60%,NMI(归一化互信息)得分高出约18%。与这些先进方法相比,AttentionAE-sc取得了更加优异的表现,其中包括内部指标轮廓系数(silhouette score)的显著提升,反映出细胞表示质量的提升。此外,还探讨了优秀聚类结果与聚类优化阶段获得的聚类友好型细胞表示之间的关系,分析了模型的稳定性与鲁棒性,并评估了各个模块组件的贡献。特别是在BRCA(乳腺癌)数据集上的实验进一步验证了AttentionAE-sc在聚类分析方面的卓越性能以及揭示scRNA-seq数据中潜在生物学意义的能力。

然而,AttentionAE-sc 与部分其他方法 [10, 11] 一样,虽然通过引入细胞间交互构建了更精细的模型,但代价是更高的计算开销)。此外,在每次优化聚类过程的迭代中,AttentionAE-sc 都需将全部样本作为输入,这限制了其在更大规模数据集中的应用。此外,当前已有的标注单细胞数据集 [47, 48] 具有构建预训练模型、降低训练难度的潜力,但尚未被充分利用。同时,将有助于构建细胞关系的先验知识 [49] 引入到模型中,也有望为深度学习方法的构建提供宝贵信息 [50]。

展望未来,构建一个标准化的单细胞聚类流程仍是一个挑战。我们将继续探索更加高效的聚类策略,以更充分地利用日益增长的有标注或无标注的单细胞数据集。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值