论文阅读:scCAN: Clustering With Adaptive Neighbor-Based Imputation Method for Single-Cell RNA-Seq Data

S. Dong, Y. Liu, Y. Gong, X. Dong and X. Zeng, "scCAN: Clustering With Adaptive Neighbor-Based Imputation Method for Single-Cell RNA-Seq Data," in IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 21, no. 1, pp. 95-105, Jan.-Feb. 2024, doi: 10.1109/TCBB.2023.3337231. keywords: {Sequential analysis;Matrix decomposition;RNA;Gene expression;Laplace equations;DNA;Imputation;Adaptive neighborhood clustering;imputation;laplace matrix;single -cell RNA sequencing},

代码地址:https://https//github.com/dsj1998/scCAN


摘要

单细胞RNA测序(scRNA-seq)广泛用于研究不同样本中的细胞异质性。然而,由于技术上的不足,丢失事件常常导致基因表达矩阵中的基因表达值为零。本文提出了一种基于自适应邻域聚类的新插补方法,称为scCAN,用于估计丢失的零值。我们的方法通过同时学习相似性关系、聚类结构,并对相似性矩阵的拉普拉斯矩阵施加新的秩约束,持续更新细胞间相似性信息,从而改善丢失零值的插补效果。为了评估该方法的性能,作者使用了四个模拟数据和八个真实的scRNA-seq数据进行下游分析,包括细胞聚类、恢复的基因表达和重建的细胞轨迹。scCAN方法提高了下游分析的性能,优于其他插补方法。

引言

单细胞测序是一种高通量技术,用于读取和分析核酸,使我们能够了解诸如基因结构和变异等信息,因此它成为生命科学和技术研究的重要工具。随着科学进步,我们通过测序技术揭示了生命的密码。目前,测序技术已经有所改进。Sanger测序是第一代测序技术,通过带有荧光标记的核苷酸确定DNA序列。高通量测序是第二代测序技术,具有高效和快速的特点。第三代测序技术基于纳米孔,能够以极高的准确性和速度对单个分子进行测序。测序技术的持续发展为生命科学研究提供了高效工具,对基因组学、转录组学以及其他领域的研究至关重要。

Bulk RNA测序(bulk RNA-seq)可以同时确定样本中所有基因的表达,因此广泛用于特定细胞群体的转录组分析,以研究移植变异、基因融合、外显子以及转录起始和终止位点。细胞群体的转录组模式有助于解决相关的生物学问题。Bulk RNA测序技术混合了不同类型和状态的细胞,无法捕捉细胞之间的基因表达异质性和异构体差异,只能获得整体表达水平的平均值,这可能掩盖关键基因的表达变异和特定异构体的存在。相比之下,通过单细胞RNA测序(scRNA-seq)技术,可以获取单个细胞的转录组数据,更好地反映群体内细胞的异质性,揭示细胞类型、亚型以及转录表达的动态变化。现有的单细胞测序技术允许准确清晰地研究生物体的细胞功能和相关疾病。然而,单细胞RNA测序技术存在一些缺陷。其中一个主要挑战是单个细胞的RNA含量较低,使得从单个细胞中获取足够的RNA测序数据变得困难。为了解决这一问题,scRNA-seq实验通常需要RNA分子扩增方法。然而,在扩增过程中RNA分子可能会丢失,导致数据缺失,这被称为“丢失事件”。与bulk RNA-seq相比,scRNA-seq产生的数据显示出更高的噪声和变异性,数据稀疏且庞大,使得现有的机器学习算法难以有效分析和处理scRNA-seq数据。因此,开发适合处理和分析scRNA-seq数据的机器学习算法对于理解人类疾病的发病机制及其治疗至关重要。

为了弥补scRNA-seq技术的不足,可以使用单细胞测序数据插补技术。这种技术可以恢复噪声数据,提高插补数据在后续下游分析中的性能。因此,插补已经成为下游细胞分析中的一个重要组成部分。

近年来,针对恢复单细胞转录组数据中的丢失事件,出现了许多插补算法。例如,MAGIC利用细胞之间的距离构建马尔可夫亲和矩阵,使用数据扩散方法获得更平滑的相似性矩阵,最终使用相似细胞中的相似表达来插补丢失值。SAVER使用负二项分布、泊松分布以及相似基因的表达来估计丢失值,然后将其与真实表达值加权平均以获得最终表达。scImpute对基因使用伽马-正态混合模型来区分由于测序技术引起的零值和生物学上显著的结构零值。SCDD是一种两阶段插补方法,首先使用伽马-正态混合模型识别潜在的丢失值,然后基于相似细胞的表达值引入扩散方法进行初步估计。最后,使用图卷积神经网络和收缩自编码器的联合模型过滤噪声,以减轻过度平滑的问题。ALRA定义基因阈值来区分丢失值,使用奇异值分解方法计算基因表达矩阵的低秩估计来完成插补。DrImpute利用细胞间距离将细胞分群,然后计算细胞子群的平均表达值来插补丢失值。DeepImpute将基因划分为子集并构建子网络以提高模型的效能和效率。scVI提出了一种基于深度神经网络的层次贝叶斯模型(HBM)。WEDGE对矩阵的零值和非零值设置不同的权重参数,使用低权重值减少对结果的影响,并使用偏差低秩矩阵分解来计算基因表达矩阵。

许多插补方法基于数据的相似性矩阵来估计丢失值,这导致通过学习相似性矩阵(包括细胞间和基因间的相似性)来恢复基因表达。点对点的相似性矩阵忽略了潜在细胞亚群体之间的结构。因此,学习到的数据相似性可能不是最佳的类别结构,从而导致次优结果。在本研究中,我们提出了一种基于自适应邻域聚类算法的新插补方法,该方法通过局部距离自动分配最佳邻居来学习相似性,同时对数据的相似性矩阵的拉普拉斯矩阵施加秩约束,以学习潜在细胞亚群体的结构,从而准确估计丢失值。我们将scCAN方法应用于四个已发表的scRNA-seq数据集和六个模拟数据集,并与其他插补方法的结果进行了比较。scCAN有效地利用细胞亚群体结构来改进相似性矩阵,并展示了其在scRNA-seq中的下游优势。与其他插补方法相比,scCAN能够准确区分细胞亚群体,并从受精卵通过2细胞、4细胞、8细胞和16细胞阶段重建到囊胚细胞的细胞分化轨迹。此外,scCAN在不同丢失率下恢复基因表达的效果也表明结果与真实表达一致。

问题描述


单细胞测序中的丢失事件是由于测序过程中的技术限制,特别是DNA扩增引起的。单细胞测序涉及对单个细胞的DNA进行扩增,以生成足够的材料用于测序。然而,这一不完美的扩增过程可能会导致结果DNA序列中的随机偏差和错误。因此,丢失事件可能会生成技术性零值,本研究旨在通过更新细胞间相似性网络来准确填补这些零值。

识别潜在的丢失位点

零值包含生物学零值和技术零值。在进行插补时,必须区分这两者。我们使用了谱聚类方法来降低原始数据的维度,然后利用K-means聚类算法将数据大致划分为k(k = 1,…,K)个细胞亚群体。在细胞亚群体的范围内,我们为每个基因开发了置信水平β(k)_i,以区分生物学零值和技术零值。较高的置信水平表示基因中的零值更有可能是丢失值。这种方法的逻辑源自scImpute,即对于在特定细胞亚群体中具有高表达和低变异性的基因,零值被假设为技术零值。相反,在细胞亚群体中一致地以低到中等水平表达且变异性高的基因,如果它们具有零表达值,则被假设为真实的生物学变异。置信水平β(k)_i 定义如下:

其中,α(k)_i、μ(k)_i 和 σ^2_i (k) 分别表示细胞亚群体k中基因i的零表达率、平均表达值和方差。

为了区分表达值和丢失值,我们构建了一个与矩阵V大小相同的系数矩阵P。矩阵P的元素仅有1和0,表示V_ij中是否存在表达。为了避免过度插补,置信度低于阈值t的基因在矩阵P中都被设置为1。这意味着我们认为这些基因中的零表达值在生物学上是重要的,不需要进行插补。

非负矩阵分解(NMF)

单细胞测序数据是非负的。利用这种非负矩阵分解来估计丢失值是基于数据的特征。在插补丢失数据的问题中,非负矩阵分解方法将原始的单细胞基因表达矩阵V分解为两个矩阵,其中Q表示细胞的潜在特征,H表示基因的潜在特征。以下优化目标可用于描述基于NMF的基本数据插补模型:

其中,H^T是H的转置矩阵,∘\circ∘ 是哈达玛积操作。

方法

scCAN算法通过自适应的最佳邻居更新相似性网络,同时考虑细胞亚群体结构以提高准确性。

自适应邻域

在估计丢失值时,通常会选择与之相关的细胞或基因来构建相似性矩阵。丢失值是基于与之具有高度相似性的细胞或基因来估计的。在本研究中,我们假设距离越小,数据点的相似性越高。在每次迭代中,我们使用KNN算法遍历所有数据点,仅保留每个数据点的r个最近细胞作为相似性学习的最佳邻居,使用余弦距离计算细胞之间的相似性关系。细胞的总数和基因的总数分别由N和G定义。细胞i和细胞j在完整基因集合中的表达分别由xig和xjg表示。两细胞之间的余弦距离定义为:

相似性矩阵S的初始化如下:

其中,KNN(x_i) 和 KNN(x_j) 表示与细胞 x_i 和 x_j 最接近的细胞集合。

潜在聚类结构

相似性网络通过数据点之间的局部距离来学习,以考虑点对点的关系,但忽略了潜在的细胞亚群体结构。我们的方法通过对数据相似性矩阵的拉普拉斯矩阵施加新的秩约束,使相似性矩阵中的连通组件精确等于簇的数量。在更新相似性网络时学习潜在细胞亚群体可以提高准确性。标准化的拉普拉斯矩阵定义为:

为了学习潜在细胞亚群体的结构,需要W保持V的内在几何特征。特别地,如果两个细胞 \(v_i\) 和 \(v_j\) 在原始数据中接近,则它们的潜在空间表示 \(q_i\) 和 \(q_j\) 必然也接近,反之亦然。Cai等人证明局部拓扑结构保持可以表述为迹优化,即:

总之,我们的最终优化目标是:

其中,\(\lambda_1\) 和 \(\lambda_2\) 是正则化参数。

在解决(8)之后,得到的矩阵 Q 和 H 可以用于执行丢失数据插补。完成的数据通过以下公式估计:

其中,\(\hat{V}\) 定义为插补矩阵。


没有特别看懂,感觉就是利用近邻的方法找到近似细胞,以潜在聚类结构为目标来进行数据插值补充。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值