Mila唐建团队新作：可迁移、可解释的单细胞RNA测序模型

智源社区

于 2021-09-26 12:05:08 发布

阅读量379

点赞数

文章标签：大数据 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/120500376

版权

Mila唐建团队和李岳老师合作提出scETM模型，应用于scRNA-seq，实现高效、可迁移、可解释的数据分析。scETM通过嵌入主题模型改善数据融合和批次效应问题，已在Nature Communications发表并开源。

摘要由CSDN通过智能技术生成

【栏目：前沿进展】近日，McGill大学的李岳老师和魁北克人工智能研究所Mila唐建老师团队共同提出了一种高效、易用、可拓展、可迁移、可解释的模型——scETM，用于单细胞RNA测序工作，并于Nature Communications发表。该论文提出了一个嵌入主题模型（Embedded Topic Model）可以帮助更好地理解细胞的功能和区分不同细胞的类型，未来具有广泛的生物意义。（本文为智源社区独家约稿）

作者：赵伊凡、蔡辉宇（Mila唐建团队）

编校：李梦佳

背景和摘要

单细胞转录组测序（scRNA-seq）技术能以单细胞精度测量样本的表达谱，是加深人类对生物学的认知、推动疾病诊断和治疗的进步的有力工具。近年来已经出现了多个图谱（atlas）级别的scRNA-seq数据集。

然而，对scRNA-seq数据的整合分析（integrated analysis）仍存在很大的挑战，不仅数据规模越来越大，测序技术、实验批次、dropout 等因素的干扰也屡见不鲜，如何从大型参考数据集（reference dataset）上迁移知识、如何解释模型学到的参数等问题尚未得到充分解决。

McGill大学的李岳老师和魁北克人工智能研究所Mila唐建老师团队共同提出了一种高效、易用、可拓展、可迁移、可解释的模型——scETM，近日于Nature Communications发表。利用GPU，该方法可轻松在百万级数据集上训练scRNA-seq数据模型，且训练后的模型参数可以迁移到其他（如规模更小的、其他组织甚至其他物种的）数据集上。scETM能够为数据集中的细胞、基因和主题计算嵌入向量，利用这些嵌入可以进行聚类、差异表达分析、富集分析等多种下游任务。这些嵌入向量为模型提供了高度的可解释性（见3.3节）。

scE