空间多组学技术允许从同一组织切片获取多模态数据。为了充分发挥此类数据的潜力,我们需要空间多模态整合方法。SpatialGlue是一种具有双注意机制的图神经网络,它通过空间位置和组学测量信息实现整合,进而解密空间域(spatial domain)。SpatialGlue设计了多种实验,包括空间表观遗传组-转录组(spatial epigenome–transcriptome)和空间转录组-蛋白质组(spatial transcriptome–proteome)。与其他方法相比,SpatialGlue 捕获了更多的细节,并更准确地解析了空间域,例如大脑皮层。SpatialGLUE还识别了位于三个不同区域的细胞类型,例如脾脏巨噬细胞亚群。
来自:Deciphering spatial domains from spatial multi-omics with SpatialGlue
目录
背景概述
空间转录组是自单细胞转录组问世以来分析生物样本的重大发展。目前,空间技术正在扩展到空间多组学,即在单个组织切片上同时分析不同的组学。这些技术大致可分为两类:基于测序和基于成像。基于测序的技术包括 DBiT-seq、Spatial-CITE-seq、Spatial ATAC-RNA-seq以及 CUT&Tag-RNA-seq、SPOTS、SM-Omics、Stereo-CITE-seq、空间 RNA-TCR-seq 和 10x Genomics Xenium,而基于成像的技术包括 DNA seqFISH+、基于 DNA-MERFISH 的 DNA 和 RNA 分析(DNA and RNA profiling)、MERSCOPE 和 Nanostring CosMx。借助这些技术,我们现在可以在空间环境中获取多个互补的分子视图。这为深入了解组织特性提供了数据来源。
为了充分利用空间多组学数据来构建所研究组织的连贯图景,需要对异质性的模态进行兼顾空间信息的整合。这种多组学数据整合带来了重大挑战,因为不同模态的特征数量可能相差很大(例如,蛋白质组特征数量与转录组特征数量),并且具有不同的统计分布。当将空间信息与每个数据模态内的特征整合时,这一挑战更加严峻。在SpatialGLUE前,还没有专门为从同一组织切片获取的空间多组学数据而设计的工具。
相关工作
现有方法要么是单模态的,要么就不使用空间信息,对于工具 MEFISTO,该工具之前仅在单细胞多组学或空间转录组上进行了演示。对于非空间多组学数据整合方法,有多种算法可用。这些包括 Seurat WNN、MOFA+、StabMap、totalVI、MultiVI 和 scMM。此外,其中一些方法是为特定数据模态设计的,这可能会受到限制。例如,totalVI 是为 RNA 和蛋白质模态的 CITE-seq 数据设计的,而 MultiVI 针对基因表达和染色质可及性进行了优化。
对于空间组学工具,示例包括 STAGATE、SpaGCN 和 GraphST,它们整合了空间信息和单模态测量数据。这种单组学方法只能通过连接来自异质组学模态的特征count数据来处理空间多组学数据。这种方法假设不同组学之间的特征具有相同的重要性,但这显然不是最合理的做法。因此,需要专门针对空间多组学数据量身定制工具。最紧迫的是,我们需要能够进行空间感知跨组学整合的新方法。
贡献
SpatialGlue 是一种空间整合方法,它整合了从同一组织切片获取的多组学数据,以空间分辨率解读组织样本的空间域。SpatialGlue 使用图神经网络来学习每种数据模态的嵌入,然后跨模态进行整合。为了利用空间信息促进跨组学整合,SpatialGLUE采用了双重注意力聚合机制来自适应地捕捉不同模态的重要性。首先在模拟和实验获取的人类淋巴结数据上测试了 SpatialGlue,并附有Ground Truth,以将其性能与其他方法进行比较。SpatialGlue 实现了比其他方法更好的性能,并捕获了更多的切片细节。然后,在更多数据集上测试了 SpatialGlue 和对比方法,以整合小鼠大脑的空间表观遗传组和转录组,或者从小鼠胸腺和脾脏获得的空间转录组和蛋白质组数据。SpatialGlue 利用表观遗传组-转录组数据来分类出比原始数据注释更多的皮质层,并利用转录组-蛋白质组来分类出脾脏内的巨噬细胞亚群。这些结果凸显了多模态空间组学在分析生物复杂性方面的优势。
模型架构
SpatialGlue 通过将多组学数据与空间信息有效整合,以解读组织样本的空间域。SpatialGlue 是一种基于图神经网络 (GNN) 的深度学习模型(图 1b)。SpatialGlue 的输入数据可以是segmented cells或locations(beads, voxels, pixels, bins or spots)的特征矩阵,每个spot附带空间坐标。为简单起见,统一将cells和locations称为spots。对于整合,SpatialGlue 在两个层面上使用双注意机制,首先是模态内空间信息和测量特征的整合,然后是跨模态的多组学整合。
对于消融实验,为了评估 SpatialGlue 的有效性,首先使用模拟数据通过一系列消融实验验证了注意力和其他组件的重要性。
- 图1b:SpatialGlue 首先使用 k-近邻 (KNN) ,基于空间坐标构建空间邻居图,并使用每个组学模态的归一化counts数据构建特征邻居图。然后,对于每个模态,GNN 编码器通过迭代来聚合邻居的表示。为了捕捉不同图的重要性(空间图和特征图),这里设计了一个模态内注意力聚合层,以自适应地整合并获得特定于模态的表示。最后,为了建模不同模态的重要性,SpatialGlue 使用模态间注意力聚合层来自适应地整合并输出最终的spot表示。
图的构建细节
对于空间图,用坐标+KNN构建,对于特征图,用PCA embedding+KNN构建。我们首先考虑一个具有两种模态的空间数据集,每个数据集都有一个特定的特征集 X 1 ∈ R N × d 1 X_{1}\in\R^{N\times d_{1}} X1∈RN×d1和 X 2 ∈ R N × d 2 X_{2}\in\R^{N\times d_{2}} X2∈RN×d2, N N N表示组织中的spots数。不同联合测量数据的矩阵有不同含义,例如,在空间表观遗传组-转录组中, X 1 X_1 X1和 X 2 X_2 X2分别指基因和染色质区域,而在Stereo-CITE-seq中,则分别是指基因和蛋白质。空间多模态数据整合的主要目的是学习一个可以将异质模态数据投射到统一的潜在空间的映射函数。
- 空间图:假设在组织中空间相邻的spots通常具有相似的细胞类型或细胞状态,因此可以将空间信息转换为邻居图 G s = ( V , E ) G_{s}=(V,E) Gs=(V,E),其中, V V V表示 N N N个spots, E E E表示spots之间的联系。用 A s ∈ R N × N A_{s}\in\R^{N\times N} As∈RN×N表示 G s G_{s} Gs的邻接矩阵,spots i i i和 j j j的距离小于指定邻居数 r r r时, A s ( i , j ) = 1 A_{s}(i,j)=1 As(i,j)=1,否则为0,一般 r = 3 r=3 r=3。
- 特征图:在复杂的组织样本中,具有相同细胞类型/状态的spots可能在空间上彼此不相邻,甚至相距很远。为了在潜在空间中捕捉此类spots的接近度,使用特征图明确地模拟它们之间的关系。具体来说,在 PCA 嵌入上应用 KNN 算法并构建特征图 G f m = ( V m , E m ) G_{f}^{m}=(V^{m},E^{m}) Gfm=(Vm,Em),其中 m m m指模态。对于给定的spot,选择最top的K-Near spots作为其邻居。默认情况下,所有数据集的 k k k设置为20。使用 A f m ∈ R N × N A_{f}^{m}\in\R^{N\times N} Afm∈RN×N表示特征图的邻接矩阵。如果spot j j j是 i i i的邻居,则 A f m ( i , j ) = 1 A_{f}^{m}(i,j)=1 Afm(i,j)=1,否则为0。
结果
模拟数据上的基准测试
首先使用模拟数据和实验获得的数据(带有GroundTruth)对基线进行了比较。有了GroundTruth,我们可以通过有监督的指标,即HOM,MI,AMI,NMI和ARI来评估性能。
实验中生成了一组模拟数据,这些数据包括两个模态,其中包含了GroundTruth的独特和互补信息(图2a)。具体而言,因子1、3和4由模态1确定,而因子2通过模态2确定。
该模拟实验旨在分别模拟转录组和蛋白质组,其第一个模态遵循ZINB分布,第二个模态遵循NB分布(图2b)。为了进行比较,测试了七种方法:Seurat,TotalVi,Multivi,Mofa+,Mefisto,SCMM和Stabmap。从视觉上讲,spatialGLUE能够清楚地恢复四个factor,以与GroundTruth匹配(图2a)。Seurat和Mefisto能够清楚地恢复两个因素(Seurat的因素2和4,Mefisto的3和4)。其他方法能够恢复一些因素,但噪声水平更高(MOFA+,Multivi和SCMM的1和2因子2,StabMap的2和3)。
- 图2a:从左到右为GroundTruth,单个模态的原始数据以及通过各种baseline的聚类结果,“ backgr”是指背景。
- 图2d:模拟数据集的六个指标的表现比较图。
实验数据上的基准测试
在第二个示例中,使用10x Genomics Visium RNA and protein co-profiling技术测量的内部人淋巴结数据集(in-house human lymph node)进行了基准测试。在这里,将基于(H&E)的注释作为GroundTruth(图2e)。为了进行比较,绘制了基于PCA的单模态RNA和蛋白质聚类结果(图2F)。
这些方法也无法将capsule layers与周围的pericapsular adipose tissue分开,这些脂肪组织也无法很好地捕获RNA和蛋白质模态。在经过测试的方法中,spatialGlue,Seurat,TotalVI和MOFA+能够识别 follicle 区域,而Multivi,SCMM,Mefisto和Stabmap不能。
为了定量评估,使用了无监督和有监督指标。首先使用了无监督的 Moran’s I score 和 JACCARD 相似性系数来评估簇的空间自相关和联合空间中距离的保留。对于根据GroundTruth计算的有监督指标,见图2i。
在表观遗传-转录组中解析mouse brain
数据集来源
通过Zhang等人的spatial ATAC–RNA-seq和Cut&Tag-RNA-seq分析了来自幼年(P22)小鼠的脑组织切片。Microfluidic barcoding用于捕获空间位置,并与situ Tn5 transposition chemistry结合以捕获染色质的可及性。实验中使用了四个数据集,一个spatial ATAC-RNA-seq数据集和三个spatial CUT&Tag-RNA-seq数据集。pixels的数量为9,215至9,752,genes数量为22,731至25,881,peaks数量为35,270至121,068。
为了预处理转录组数据,表达少于200个genes的pixels,以及表达少于200 pixels的genes被过滤了。接下来,通过scanpy对基因表达计数进行对数转换和按库大小进行标准化。选择了前3,000个高变基因(HVG)并用作PCA的输入,以降低维度,将前50个主成分保留并用作编码器的输入。对于染色质峰值数据,使用LSI将原始染色质峰值降低到50个维度。
实验
接下来,将spatialGLUE应用在mouse brain表观遗传组 - 转录组数据集,用于展示其可以发现更高分辨率的亚型。实验中使用了艾伦脑图集,用作注释解剖区域的一种参考,例如cortex layers(CTX),genu of corpus callosum(CCG),lateral septal nucleus(LS)和accumbens(ACB,图3a)。
为了进行基准测试,测试了针对Seurat,Multivi,Mofa+,SCMM和Stabmap的spatialGlue。不包括Mefisto和Totalvi,因为无法在12小时内运行Mefisto,而Totalvi仅为CITE-seq设计。首先可视化了各个模态(图3b),可以看到它们以不同的视角捕获了各个区域。尽管两种模态都捕获了lateral ventricle(VL)和 lateral preoptic area(LPO),但RNA模态更清楚地捕获了CCG,但无法区分CTX。同时,ATAC模态能够分离caudoputamen(CP)以及部分CTX。
SpatialGLUE捕获了上述所有解剖区域(2-ACB,4-CP/13-CP,9-VL,11-CCG/ACO,ACO,12-LS和18-LPO),并在CTX和anterior cingulate area(ACA)中产生了更好定义的层。值得注意的是,与所有其他方法(包括Zhang等人的原始分析)相比,spatialGlue能够区分更多的CTX层。Seurat能够捕获VL,ACB,CP和CTX层,使其成为第二好的方法,而其他方法几乎只能捕获CCG。通常,比较方法的输出比spatialGLUE具有更多的噪声,可以由Moran’s I score定量评估(图3c)。对于jaccard相似性度量,spatialGLUE再次排名最高(图3d)。
- 图3a:从Allen Mouse Brain Atlas获得的小鼠脑冠状截面的注释参考。
接下来,研究了模型中跨模态和模态内的权重。这些权重表示每个模态特征和空间坐标对整合的贡献(图3e)。对于跨模态的权重,RNA模态更好地隔离了CCG区域,因此分配的权重更大。另一方面,对于CTX和VL,ATAC模态显示出更多的贡献。应该注意的是,跨模态的权重是根据每种模态的潜在嵌入而不是原始特征矩阵来计算的。因此,观察到跨模态权重与单模态之间存在一定程度的差异。
进一步,分析每个簇的差异表达基因-DEG(图3j),并找到了不同大脑区域的已知marker,例如在产后发育的callosum(10- CCG/ACO)中表达的髓磷脂相关基因TSPAN2,CLDN11,UGT8A。而OLFM1,CUX2和RORB在CTX中。
- 图3j:每个簇的DEG的热力图
解析mouse thymus和mouse spleen
数据集来源
mouse thymus-胸腺-Stereo-CITE-seq:Liao 等人使用 Stereo-CITE-seq 研究了小鼠胸腺组织样本的空间多组学。在实验中,使用了四个部分的数据。基因数量范围从 23,221 到 23,960,蛋白模态包含 19 或 51 种蛋白质。对于转录组数据,通过 scanpy 对基因表达计数进行对数转换并按文库大小进行归一化。最后,为了降低数据的维数,选择了前 3,000 个 HVG。对于 ADT 数据,对原始蛋白质表达计数应用了中心对数比归一化,保留 22 个HVG蛋白质。
mouse spleen-脾脏-SPOTS:Ben-Chetrit 等人处理了新鲜冷冻的小鼠脾脏组织样本,并使用 10x Genomics Visium 对其进行分析。抗体 (ADT) 能够在使用 10x Genomics Visium 进行转录组分析的同时测量蛋白质。21 个 ADT 面板旨在捕获脾脏中发现的免疫细胞标志物,免疫细胞包括 B 细胞、T 细胞和巨噬细胞。实验使用了原始研究中的两个数据集。数据分别包含2,568 和 2,768 个spots,每个spot捕获 32,285 个基因。对于数据预处理,首先过滤掉在少于 10 个spot中表达的基因。然后使用 scanpy 对过滤后的基因表达计数进行对数转换并按文库大小进行归一化。最后,选择前 3,000 个 HVG。对于 ADT 数据,对原始蛋白质表达计数应用了中心对数比归一化。
实验
作者将 SpatialGlue 应用于 Stereo-CITE-seq 和 SPOTS 获取的数据,证明了其广泛适用于各种技术平台。Stereo-CITE-seq 用于分析小鼠胸腺切片,以亚细胞分辨率捕获 mRNA 和蛋白质(图 4a)。胸腺是一个小腺体(small gland),周围有纤维囊(capsule of fibers)和胶原蛋白囊(capsule of collagen)。它分为两个叶(lobes),由结缔峡部(isthmus)连接,每个叶大致分为中央髓质(central medulla),周围有外皮质层(outer cortex layer)。在每种数据模态中,都可以看到髓质区域(medulla regions)和周围皮质(cortex)的大致轮廓(图 4a)。对于大多数区域来说,RNA 模态的贡献比蛋白质的贡献更大,但 3-Inner cortex region 1(DN T,DP T,cTEC) 除外,其中蛋白质模态的贡献更大。
- 图4a:RNA 和蛋白质数据(Stereo-CITE-seq)的空间图,具有单模态聚类(左),以及空间多组学整合方法(Seurat、totalVI、MultiVI、MOFA+、MEFISTO、scMM、StabMap 和 SpatialGlue)的聚类结果比较(右)。注释的标签来自聚类簇的手动注释。
测试了八种方法:Seurat、totalVI、MultiVI、MOFA+、MEFISTO、scMM、StabMap 和 SpatialGlue。MultiVI 和 StabMap 无法找到与胸腺内的髓质(medulla)和皮质(cortex)。这在 Moran’s I 评分和 Jaccard 相似性中得到了反映,这两种方法得分最低(图 4b和c)。对于 MultiVI,其在蛋白质 + RNA 数据上的表现不佳,可能是因为它针对 RNA + ATAC 数据。Seurat、totalVI、scMM 和 SpatialGlue 在通过将髓质(medulla)与皮质(cortex)分离来捕捉内部结构方面更为成功,其中 SpatialGlue 和 scMM 更好地划分了皮质髓质交界处的皮质亚型:2-Corticomedullary Junction(CMJ) 和 4-Middle cortex region 2(DN T,DP T,cTEC)。总体而言,SpatialGlue 在 Jaccard 相似性中得分最高,在 Moran’s I 评分中排名第二。
- 图4b和c:b-八种方法的 Moran I 得分box图。在箱线图中,中心线表示中位数,箱线边界表示上四分位数和下四分位数,晶须表示四分位距的 1.5 倍。n = 8 次重复。c-八种方法的 Jaccard 相似度得分比较。
在最后一个示例中,作者利用由蛋白质和转录本测量组成的小鼠脾脏空间分析数据对 SpatialGlue 的功能进行了基准测试。spleen脾脏是淋巴系统内的重要器官,其功能包括在 B 细胞滤泡内形成的生发中心进行 B 细胞成熟(图 4e)。这是复杂的结构,其中存在一系列免疫细胞。数据由 SPOTS 生成,它使用 10x Genomics Visium 技术通过多聚腺苷酸化抗体衍生标签 (ADT) 偶联抗体捕获整个转录组和细胞外蛋白质。用于此实验的蛋白质检测面板旨在检测 B 细胞、T 细胞和巨噬细胞的表面标志物,这些标志物在脾脏中表现良好。预处理后,作者对每个数据模态进行聚类,并在组织载玻片上绘制聚类以检查模态之间的对应关系(图 4f)。
- 图4e:小鼠脾脏的组织学图像样本。
- 图4f:空间图 RNA 和蛋白质数据(SPOTS)具有单模态聚类(左),以及来自空间多组学整合方法(Seurat、totalVI、MultiVI、MOFA+、MEFISTO、scMM、StabMap 和 SpatialGlue)的聚类结果(右)。RpMΦ、MMMΦ 和 MZMΦ 分别是红髓宏、CD169 + MMM 和 CD209a+ MZM。
两模态的簇明显不对齐,表明每种模态都具有不同的信息内容(图4f)。使用蛋白质 marker 和 差异表达gene,注释了富含 B 细胞、T 细胞和巨噬细胞亚群的spots。具体来说,确定了原始研究中未注释的巨噬细胞亚群 (RpMΦ、MZMΦ、MMMΦ)。然后,作者测试了 Seurat、totalVI、MultiVI、MOFA+、MEFISTO、scMM、StabMap 和 SpatialGlue(图 4f)。MultiVI 和 StabMap 不能识别出正确区域。这也反映在他们的 Moran’s I 分数和 Jaccard 相似性中。其余方法具有相似 Moran’s I 分数的簇,但 SpatialGlue 在 Jaccard 相似性方面得分最高。
为了注释使用 SpatialGlue 发现的簇,作者可视化了细胞类型的蛋白marker(图 4j、k)和RNA marker(图 4l)。