Concerto | 利用自蒸馏来建模单细胞图谱

研究背景
近年来单细胞多组学工具正以前所未有的分辨率来重新阐释组织特征。首先,特征选择(筛选高可变基因)或者线性降维(PCA)这样的传统分析方法可能导致信息丢失,深度学习可以拟合基因间的非线性关系因而颇有前景。其次,批次效应的去除,即在混杂的信号中将生物信号分离出来对数据整合很重要。最后,将待分析数据映射到参考的方法已经逐渐开始流行,这种方法可以快速解释新的数据,而无需重新做聚类和手工注释之类的分析。
近年来对比学习在计算机视觉领域,特别是图像分类上取得了巨大成功。蒸馏方法可以在非对称神经网络(师生网络)之间传递知识,在含有噪音的数据中进行自监督蒸馏可以获得更好的表现。在本文中提出的Concerto是一个用于单细胞分析的自蒸馏的对比学习框架,利用模拟和真实的数据集进行测试,学习到的细胞表征可以用于包括细胞类型分类、聚类、批次效应校正、以及参考映射的各种下游任务,并且在各个任务中性能优于其他方法。

工作原理
Concerto整体上采用了一个自蒸馏的对比学习框架(图1a)。如图1,Concerto使用了一个师生网络来进行自蒸馏,基因的counts数据进行归一化后转化为index-value格式,分别输入教师网络和学生网络。学生网络使用Dense层,教师网络使用了一个Attention层,进行一个随机的Dropout层后投射到空间超球面。整个网络的优化目标是最大化同一细胞在经过教师和学生两个网络处理后的视图(被称为positive pair)在超球面投影的一致性。通过拉近同一细胞经过师生网络的positive pair,并疏远不同细胞经过网络的处理结果,来达到类似的细胞具有更相似的细胞表征的效果。
此外,多组学数据(例如RNA和蛋白)的细胞表征可以相加来获得统一表征(图1b),并且可以应用于各种下游任务(图1c)。

                                                      图1. Concerto框架概述

实验结果
对比学习到的细胞表征可以通过微调,显著提高细胞自动分类的性能,并且可以发现跨组织的新细胞类型(图2)。利用现有数据集的注释作为标签进行微调预测细胞类型可以发现,Concerto无论在训练数据集、(图2a,c)、其他测试数据集(图2b)、组织内(图2f)和跨组织间(图2g,h,i)都表现出了相较于其他方法更好的性能,并可以较好地为训练集内不存在的细胞类型分配低置信分数(图2d),在多组学数据上也有良好的表现(图2e)。

    图2.比对学习到的细胞表征通过微调显著提高细胞分类性能,并支持跨组织的新细胞类型发现

相较于现有的一些其他方法(例如Seurat,PCA,scDeepCluster),使用Concerto进行的细胞表征用于聚类表现出较好的性能(图3a),并能很好地与手动注释对齐(图3b),还可以结合多组学数据确定细胞身份(图3c)。并且,教师网络的Attention机制可以通过注意力权重来提供一定的可解释性(图3d)。对于多个批次的数据,Concerto也可以很好地支持批次矫正的数据整合(图3f,g)。

                             图3. Concerto方法进行有效的无监督聚类和批次矫正数据整合

在参考映射的任务上,Concerto利用其师生网络结构,实现了相对于其他现有方法更好的性能(图4a,c,d)。通过在参考中删除所有CD8 T细胞,文章验证了Concerto发现未见过的细胞类型和预测蛋白表达的能力(图4e,f,g)。在计算成本上,Concerto足够快(图4h),并且相较于现有的其他方法有良好的可拓展性(图4i)。

图4. Concerto的参考映射准确性最高,并且可以发现在参考中未见过的细胞类型,支持数百万的数据规模,拥有良好的拓展性

作者进一步利用Concerto,将COVID-19的PBMC数据集映射到综合的COVID-19参考集上。这里提出了一种分级的映射方法:先获得粗粒度的映射,再映射到参考的子组获得细粒度的注释(图5a)。Concert可以揭示在各种感染状态(健康、轻症、重症)下不同的免疫信号(图5b-h)。

                                       图5. 分级映射显示COVID-19病人的差异免疫反应

总结
作者利用自蒸馏的对比学习框架Concerto获得了很好的细胞表征,通过模型的注意力权重提供一定的可解释性,并且可以通过模态间的求和来支持多组学数据整合,在各种下游应用中也获得了优异的性能表现。在面对大规模的多组学数据分析时显示出巨大的潜力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值