前面我们介绍了从Xenium下机数据开始,到数据读取、质控、降维聚类、空间聚类(Banksy)、细胞类型注释(特征基因注释、RCTD反卷积注释),完成了基础的分析,(Xenium数据分析 | 下机数据读取;Xenium数据分析 | 数据预处理、单细胞降维聚类、细胞类型定义)接下来需要基于我们的实验设计进行后续分析,得到相关结果,讲述我们的生物学故事。这里我们用4个小鼠肺腺癌样本Xenium数据进行演示,记录下我们对空间数据分析简单的见解,希望可以和大家相互学习。
对于单细胞研究,我们知道疾病、正常等表型变化是由于细胞比例、细胞交互的变化所引起的,但是在空间层面更多的是细胞空间位置排布组成的改变(文章中的叫法各不相同,比如空间域(spatial doamin)、细胞邻域(cellular neighborhood )、生态位(niche)等,但是具体的统计原理基本一致,我们更多的时候称之为CN),CN的转变改变了细胞存在原有的“环境”,错误的定位与相互作用改变了的组织生态,才导致了组织病变与功能紊乱。举个简单例子,有两个病人肿瘤组织切片,其中T细胞个数占总细胞数比例是一样的,但是这些T细胞在空间排布完全不一样,一个T细胞浸润在肿瘤细胞中,另外一个T细胞与肿瘤细胞泾渭分明,单从细胞比例是无法区分这两类病人的免疫类型,但是从空间上一目了然。空间转录组(Xenium, VisiumHD, Cosmx)数据分析中,我们在细胞类型注释完成后,接下来通常会再识别出不同的CN,每个CN中会包含特有的几种细胞类型,CN中的细胞类型由于其细胞类型组成的相似性,代表了共有的细胞结构,在空间转录组数据分析的过程中,比较不同条件下样本之间的空间结构,就会找到疾病所带来的组织结构变化,可以在更加全面的角度上认识疾病,并为治疗提供积极的意见。
CN的定义以及计算方法,之前我们也有过相关的介绍,需要注意的是,之前我们给的计算代码主要是针对只有一个样本的计算方法,有多个样本时需要注意进行相应修改。
Xenium | 细胞邻域(Cellular Neighborhood)分析(fixed k-nearest neighbor)
Xenium | 细胞邻域(Cellular Neighborhood)分析(fixed radius)
示例数据:4个小鼠肺腺癌样本Xenium数据基础分析结果
1、使用固定半径(如以某细胞为中心的周围60μm)或固定数量(如包含50个最近邻点)的方法,定义邻域范围,计算细胞邻域;
2、将定义的CN在样本上进行空间原位映射,根据每个CN内不同细胞类型的占比,我们基本上能对各个CN的主要组成进行定义,如上述热图展示结果,我们基本上能够知道CN6是Tumor core区域, 而CN2是Tumor boundary区域,其他CN我们也可以根据其中细胞组成进行重新命名。
空间原位验证,在几个肿瘤样本中,都能够确认我们上面说的肿瘤细胞核心和肿瘤边界位置与功能定义一致,说明我们的空间结构识别基本上准确。
3. 各CN中细胞类型占比统计展示
4. 我们定义的这些CN在不同的样本/分组中是否有显著性差异,这里我们就能将观察的重点从整个样本缩小到特定空间区域,找到哪些CN是在不同分组中有差异,这些差异可能就是引起表型变化(肿瘤进展、治疗响应等)的关键。
5. 对不同的CN进行通路富集分析,锚定这些空间结构的主要功能
6. 各CN中,或者CN之间的细胞通讯分析,找到在不同样本/分组的关键受配体对。