【栏目:前沿进展】近日,McGill大学的李岳老师和魁北克人工智能研究所Mila唐建老师团队共同提出了一种高效、易用、可拓展、可迁移、可解释的模型——scETM,用于单细胞RNA测序工作,并于Nature Communications发表。该论文提出了一个嵌入主题模型(Embedded Topic Model)可以帮助更好地理解细胞的功能和区分不同细胞的类型,未来具有广泛的生物意义。(本文为智源社区独家约稿)
作者:赵伊凡、蔡辉宇(Mila唐建团队)
编校:李梦佳
01
背景和摘要
单细胞转录组测序(scRNA-seq)技术能以单细胞精度测量样本的表达谱 ,是加深人类对生物学的认知、推动疾病诊断和治疗的进步的有力工具。近年来已经出现了多个图谱(atlas)级别的scRNA-seq数据集。
然而,对scRNA-seq数据的整合分析(integrated analysis)仍存在很大的挑战,不仅数据规模越来越大,测序技术、实验批次、dropout 等因素的干扰也屡见不鲜,如何从大型参考数据集(reference dataset)上迁移知识、如何解释模型学到的参数等问题尚未得到充分解决。
McGill大学的李岳老师和魁北克人工智能研究所Mila唐建老师团队共同提出了一种高效、易用、可拓展、可迁移、可解释的模型——scETM,近日于Nature Communications发表。利用GPU,该方法可轻松在百万级数据集上训练scRNA-seq数据模型,且训练后的模型参数可以迁移到其他(如规模更小的、其他组织甚至其他物种的)数据集上。scETM能够为数据集中的细胞、基因和主题计算嵌入向量,利用这些嵌入可以进行聚类、差异表达分析、富集分析等多种下游任务。这些嵌入向量为模型提供了高度的可解释性(见3.3节)。
scE