利用Scanorama高效整合异质单细胞转录组

fig1

摘要

整合来自多个实验、实验室和不同技术的 single-cell RNA sequencing(scRNA-seq)数据可以揭示更丰富的生物学问题,但目前的scRNA-seq数据整合方法受到数据集来自功能相似细胞的要求的限制。我们提出了Scanorama算法,该算法可以识别和合并所有数据集对之间的共享细胞类型,并准确地集成scRNA-seq数据的异构集合。我们应用Scanorama整合和消除了来自代表9种不同技术的26个不同scRNA-seq实验的105,476个细胞的批次效应。Scanorama对同一细胞谱系内细微的时间变化敏感,成功整合了CD14+单核细胞(monocytes)在不同分化阶段分化为巨噬细胞(macrophages)的时间序列数据中功能相似的细胞。最后,我们表明Scanorama比现有技术快几个数量级,可以在约9小时内整合1,095,538个细胞。

Main

独立的single-cell RNA sequencing(scRNA-seq)实验已经被用于发现新的细胞状态和重建细胞分化轨迹。通过全球科学家的努力,研究人员目前正在生成大规模、全面的scRNA-seq数据集,这些数据集描述了多种细胞功能,有望实现对基础生物学和疾病过程的高分辨率观测。然而,由于实验批次、样本捐赠者或实验技术的不同,组合大型统一的参考数据集可能会受到影响。虽然最近的方法表明,可以在多个实验中整合scRNA-seq,但这些方法自动假设所有数据集共享至少一种共同的细胞类型,或者基因表达谱在所有数据集中共享基本相同的相关结构。因此,这些方法容易出现过度校正,尤其是在整合scRNA-seq存在很大差异的数据集时。

在此,我们提出Scanorama:一种有效整合多个scRNA-seq数据集的策略,即使它们由异质的转录表型组成。我们的方法类似于用于全景拼接的计算机视觉算法,该算法识别具有重叠内容的图像,并将这些图像合并到更大的全景中(图1a)。同样,Scanorama自动识别包含具有类似转录谱的细胞的scRNA-seq数据集,并可以利用这些匹配进行批次校正和整合(图1b)。Scanorama对不同的数据集大小和来源具有很强的鲁棒性,保留了特定于数据集的内容,并且不要求所有数据集共享至少一个细胞类型。
fig2

  • 图1:"全景"数据集合成示意图。
  • a:全景拼接算法查找并合并重叠图像,以创建更大的组合图像。
  • b:类似的策略也可用于合并异构scRNA-seq数据集。Scanorama搜索最近的邻居,以确定所有数据集对之间的共享细胞类型。基于超平面局部敏感哈希LSH和随机投影树的降维技术和近似近邻算法大大加快了搜索速度。相互链接的细胞形成匹配关系,可用于校正批次效应并将其合并在一起,从而在这些匹配的基础上连接形成的数据集成为scRNA-seq的"全景"。

我们的方法将相互最近邻匹配(一种在两个数据集之间查找相似元素的技术)推广到多个数据集之间查找相似元素。最初是为了在图像中进行模式匹配而开发的,寻找相互最近的邻居也被用于一次识别两个scRNA-seq数据集之间的共同细胞类型。然而,为了对齐两个以上的数据集,现有方法选择一个数据集作为参考,然后依次将所有其他数据集集成到参考中,一次一个,这可能导致次优结果,并且取决于数据集的考虑顺序。尽管Scanorama在对齐两个数据集的集合时采用了类似的方法,但在较大的数据集合上,它对顺序不敏感,并且不易发生过度更正,因为它可以在所有数据集对之间找到匹配。

为了优化在所有数据集中搜索匹配单元格的过程,我们介绍了两个关键步骤。我们没有在高维基因空间中进行最近邻搜索,而是通过基因表达矩阵对每个细胞进行有效的随机奇异值分解(SVD),将每个细胞的基因表达谱压缩为低维嵌入,这也有助于提高该方法对噪声的鲁棒性。此外,我们使用基于超平面局部敏感哈希和随机投影树的近似最近邻搜索,以极大地减少渐近和实际的最近邻查询时间。

Scanorama可以实现scRNA-seq数据集集成和批次校正。尽管Scanorama会带来更大的计算成本,但它使批次校正对于大型数据集是可行的,从而可以进行更广泛的下游分析。例如,我们可以对批次校正的基因表达数据进行差异表达分析。

结果

fig3

  • 图2:Scanorama正确地集成了一个简单的数据集集合,而其他方法都失败了。
  • a:我们将Scanorama应用于整合三个数据集:一个完全为Jurkat细胞(n=3257个细胞)、一个完全为293T细胞(n=2885个细胞)和一个50/50比例混合的Jurkat和293T细胞数据集(n=3388个细胞)。
  • b:我们的方法正确地将Jurkat细胞(橙色)和293T细胞(蓝色)整合为两个独立的簇。
  • c和d:现有的scRNA-seq数据集整合方法对其考虑数据集的顺序很敏感,并且可能会将Jurkat数据集和293T数据集错误地合并在一起,形成与实际细胞类型不对应的簇:scran MNN的整合结果见c,和Seurat CCA的整合结果见d。

fig4

  • 图3:跨九种不同测序技术的26个单细胞数据集的全景整合。
  • a:采用我们的方法对105476个细胞进行批次校正后的t-SNE分布。
  • b和c:其他scRNA-seq数据集整合方法(scran MNN和Seurat CCA)不是为异构数据集集成而设计的,因此总是倾向于天真地将所有数据集合并到一个大集群中。
  • d和e:Scanorama在不到6分钟的时间内,在低于12 GB的RAM中,集成了26个数据集的105476个细胞,这比当前的scRNA-seq集成方法要高效得多。

fig5

  • 图4:Scanorama可扩展到包含100多万个细胞的数据集整合。
  • a:Scanorama整合了来自小鼠大脑和脊髓的1095538个细胞。
  • b 到 j:使用标记基因揭示细胞类型特异性的簇。

fig6

  • 图5:Scanorama对细胞状态随时间发生的细微转录变化很敏感。
  • a 到 c:热图行和列对应于时间过程研究中的不同数据集(包括同一时间点的数据集)。较高的比对分数(深蓝色)倾向于接近对角线,这表明来自较近时间点的数据集之间的转录相似性更大。在每个时间序列实验中,时间差异和对齐分数都显著相关。
  • d 到 f:根据Monocle 2算法分配的伪时间进行可视化,Scanorama消除了不同技术获得的CD14+单核细胞的批次效应。而在使用scran MNN进行校正后,Monocle 2无法再识别正确轨迹。原始数据见d、Scanorama见e和scran MNN见f。

总结

文章提出的方法是整合scRNA-seq的高效方案,与过去的ingest不同,不需要指定某个具体的参考数据集,其实过去方法的思想还是将数据整合到一个更大的簇中(域适应到参考数据集)。Scanorama利用全景生成的思想,可以实现同时多个数据集的整合,可以自动匹配不同数据集下的相同细胞类型,同时保留不同数据集下不同细胞类型的差异,是更合理的整合方法。

其中的异质指的是整合保留了两个数据集中真正存在差异的信息。Scanorama属于是实现了正确消除了技术,实验带来的批次效应。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值