利用scATAC-seq技术进行单细胞分析,可以在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极端稀疏性,scATAC-seq的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,没有充分利用潜在的基因组序列。因此,SANGO通过整合scATAC数据中可及性峰周围的基因组序列来进行精确的单细胞注释。将峰的基因组序列编码成低维嵌入,然后通过全连通网络重建细胞的峰统计。将学习到的权重作为表示细胞的调控模式,并通过Graph Transformer将查询细胞与参考数据中标注的细胞对齐。
在55个scATAC-seq数据集上,SANGO在样本、平台和组织上的表现始终优于比较方法。SANGO还被证明能够通过Graph Transformer检测未知的肿瘤细胞。此外,通过基因表达富集分析、顺式调控染色质相互作用分析和基序富集分析,作者从注释细胞中发现了细胞类型特异性峰,这些峰提供了功能见解(生物信号)。
来自:Deciphering cell types by integrating scATAC-seq data with genome sequences
背景概述
scATAC-seq为许多生物学应用提供了巨大的机会,包括检测细胞异质性和调控元件,重建分化轨迹和鉴定复杂疾病的生物学机制。scATAC-seq数据分析中最基本的问题之一是细胞类型鉴定,这对于理解复杂组织的组成和发现未知的细胞类型至关重要。目前,一种流行的策略是将细胞聚类,然后通过与特征基因对应的峰对细胞簇进行注释。这一过程繁琐而复杂,涉及专业专家。随着具有良好特征的公共scATAC-seq数据集的迅速增加,利用标记良好的细胞对新生成的数据集进行自动标注是有希望的。
由于scATAC数据固有地涉及可访问峰的高维性和每个细胞reads的稀疏性,因此已经开发了许多方法将scATAC-seq数据转换为合成的scRNA-seq数据,方法是估计“基因活性矩阵”,这些转换后的数据类似于scRNA-seq数据,并通过scRNA-seq注释工具进行处理。考虑到scRNA-seq数据与合成scRNA-seq数据的不同,一些方法已经通过神经网络专门针对scRNA-seq数据进行了优化。然而,这些方法只是简单地总结了基因周围峰的数量,从而忽略了峰的特异性。
为了解决这个问题,有一些方法直接使用逐细胞矩阵数据来注释细胞类型。例如,EpiAnno保留频繁的峰值,并将其输入到非线性贝叶斯神经网络中以捕获潜在空间。scATAnno强调通过估计不确定性分数来检测参考数据中不存在的未知细胞类型。虽然成功了,但这两种方法独立地考虑这些峰,而不考虑它们的相对位置。更重要的是,他们没有考虑基因组序列信息。
事实上,scATAC-seq数据中的峰值可以通过包含细胞类型特异性增强子的可及性和转录因子结合基序的潜在基因组序列来区分,这些基序可以提供有关发育状态和细胞身份的信息。基因组序列信息已被广泛用于预测基因表达、预测染色质可及性、提取embedding和预测增强子-启动子相互作用。然而,基因组信息尚未用于scATAC数据的细胞注释。
为此,作者提出了SANGO,这是一种精确且可扩展的基于图的方法,通过整合DNA序列信息来注释scATAC-seq数据中的细胞。SANGO首先通过通道注意力卷积神经网络(CA-CNN)从底层峰值的DNA序列信息中学习scATAC数据的低维信息表示。学习到的参考和查询数据的低维表示随后被输入到graph transformer中,通过在相似的细胞之间传播共享消息来消除批次效应。最后,通过参考数据中的细胞标签对graph transformer进行微调,并用于预测查询的细胞类型。研究证明,在55个scATAC-seq数据集上,SANGO在跨样本、跨平台和跨组织上的预测表现始终优于比较方法。它还被证明能够检测未知的肿瘤细胞。此外,从注释的细胞中,细胞类型特异性峰可用于下游分析,以提供功能见解。
结果
SANGO的概述
如图1所示,SANGO是一种基于深度学习的方法,用于注释scATAC-seq数据中的细胞。SANGO首先通过预测单细胞染色质可达性,从可达性峰下的DNA序列信息中提取细胞低维表示(阶段1),然后利用学习到的细胞表示根据参考数据集注释查询数据集的细胞类型(阶段2)。
- 图1:SANGO的架构。SANGO包括序列信息提取和细胞类型预测两个阶段。在第1阶段,在第 i i i个峰附近,提取输入的 L L L-bp长度的DNA序列,并将其编码为 L × 4 L × 4 L×4矩阵(one-hot编码4种碱基