细胞在组织和器官内的空间位置对其发挥特定功能极为重要。近年来快速发展的空间转录组(Spatial Transcriptomics)技术能够同时测量生物组织切片空间位点的基因表达和空间位置信息,为研究人员破译组织的空间结构,理解周围环境对细胞基因表达的影响提供了条件。张世华课题组于近期分别发布了适应于不同空间转录组技术、不同生物组织的生物组织空间亚结构识别工具-STAGATE(详见BioArt报道:Nat Commun|张世华课题组开发空间转录组生物组织亚结构解析新工具-STAGATE)和基于深度学习显著图的空间域特异可变基因识别方法-STAMarker(https://doi.org/10.1093/nar/gkad801);并与合作者绘制了地中海涡虫再生过程中的三维空间转录组图谱-STAPR,系统鉴定了多个再生关键调控因子(https://www.nature.com/articles/s41467-023-39016-0)。
随着空间转录组测序数据的持续积累,整合分析不同条件下产生的数据可以提供单个数据无法获取的生物学见解。然而,这些不同来源的数据之间会存在不可避免的批次效应。消除批次效应且保留不同批次之间真实存在的生物学差异,是实现数据整合的主要挑战。尽管目前的单细胞转录组数据整合方法也可以用于多切片整合,但由于没有考虑空间信息,聚类结果容易受技术噪声影响,缺乏清晰的空间边界,且容易过度离散。
2023年10月12日,中国科学院数学与系统科学研究院张世华课题组(博士后周翔、董康宁为共同第一作者)在Nature Computational Science发表了题为Integrating spatial transcriptomics data across different conditions, technologies, and developmental stages的研究论文,针对来自不同技术、不同发育时间点、不同疾病条件的生物组织多切片空间转录组数据建立了整合分析新工具-STAligner。
STAligner首先基于图注意力自编码器得到融合空间信息与表达信息的位点低维表示(图1)。然后基于该低维表示,STAligner引入三元组来引导模型去除批次效应。在三元组中,锚点和正样本点对(pair)定义为具有相似基因表达但属于不同切片的互近邻(mutual nearest neighbor, MNN),而锚点和负样本点对属于同一切片,但具有不同的空间位置和基因表达。模型训练过程中通过最小化三元组损失和自编码器重构损失,实现批次差异减小,同时保留批次内的异质性。最终得到的低维表示用于后续聚类以识别具有相似空间表达模式的组织结构。值得一提的是,模型鉴定到的互近邻点还可以进一步用于引导堆叠连续切片的坐标配准,实现组织的三维重构。
图1. STAligner算法工作流程图。
研究人员首先基于人类背外侧前额叶皮质空间数据集,与传统单细胞算法Harmony和新近开发的切片整合算法如PASTE进行了比较。结果表明STAligner的整合聚类效果能展示更为清晰的人脑皮层分割边界,在组织结构识别方面取得了最优的性能。针对来自不同测序平台产生的小鼠嗅球切片(图2)、多时间点小鼠胚胎发育切片(图3)、正常和阿尔茨海默症小鼠海马组织切片的分析表明,STAligner有效地鉴定了切片间的共同与特异组织结构、小鼠胚胎发育过程中的结构动态变化以及与疾病相关的亚结构。
图2. 对于不同测序平台产生的小鼠嗅球切片,STAligner可以有效鉴定其中共有和特异的组织结构。
图3. STAligner可揭示早期小鼠胚胎数据中解剖组织亚结构的发育动态。
综上所述,该工作开发了结合空间与表达信息的生物组学多切片空间转录组数据整合新工具STAligner。随着空间转录组技术的快速发展和数据的不断积累,STAligner将对大规模空间转录组数据的整合分析提供基础强有力的支持。
张世华研究员课题组常年招收人工智能、生物信息学与计算生物学方向的博士后、科研助理和(客座)博士研究生,有意向的同学可投递简历。
简历投递(有意者请将个人简历等材料发至):
https://jinshuju.net/f/ZqXwZt或扫描二维码投递简历
原文链接:
https://www.nature.com/articles/s43588-023-00528-w
制版人:十一