scJoint integrates atlas-scale single-cell RNA-seq and ATAC-seq data with transfer learning

scJoint integrates atlas-scale single-cell RNA-seq and ATAC-seq data with transfer learning

Nature Biotechnology

2022/01/20

https://www.nature.com/articles/s41587-021-01161-6#data-availability

scJoint:基于迁移学习的标签转移模型。

Motivation

  • it has been noted that the extreme sparsity of scATAC-seq data often limits its power in cell-type identification // scATAC 数据存在“极端稀疏性”从而导致无法实现细胞分群
  • However, direct applications of these methods to multiomics data integration are computationally challenging and often suboptimal, since different modalities have vastly different dimensions and sparsity levels. // 因为不同的测序方法产生不同的数据维度或者稀疏性的差异,因此基于批次矫正或单细胞多组学整合的方法并不是最优的方法(批次矫正或者整合的方法必然带来信息的损失)

Innovations

  • 用于降维的 loss function
  • 相似性 loss function,在细胞没有 overlap 时提供更加灵活的 label 对齐

Main step of scJoint

scJoint requires simple data preprocessing, with the input dimension equal to the number of genes in the given datasets after appropriate filtering. Chromatin accessibility in scATAC-seq data is first converted to gene activity score // 模型的输入数据是单细胞表达矩阵。在迁移学习时,ATAC矩阵要转换为基因活性得分

  • Step 1 performs joint dimension reduction and modality alignment in a common embedding space through a new neural-network-based dimension reduction (NNDR) loss and a cosine similarity loss respectively. // 通过降维神经网络损失函数和 cosine 相似性损失函数在传统的 embedding 空间进行数据对齐。

    image-20220212010352809

    降维神经网络损失(NNDR)与 PCA 相似,是通过提取含有最大方差的正交特征。

    其中红色框框用于计算最大的组间方差:

    ​ 第一个框计算每一个细胞与几何中心的距离

    ​ 第二个框计算两个不同细胞 embedding 之间的相似度

    其中绿色框框用于计算最小重构代价,用于稳定样本空间

    这一步仅有 scRNA 数据参与训练

    image-20220212010938475

    将 ATAC 数据进行嵌入,使用余弦相关性计算嵌入后的 ATAC 数据与 scRNA 数据的相关性。这一步是为了保证嵌入空间最大程度上能够使得 ATAC 数据与 scRNA 数据相关,所以这里取负值

    最终嵌入模型的损失函数如下:

    image-20220212011209692

    算式中分为 2 个部分:

    • 计算 scRNA-seq 的嵌入损失函数与分类交叉熵,在确保分类准确的同时稳定嵌入空间
    •  第二部分计算 ATAC 的嵌入损失函数,以及ATAC 数据与所有的 scRNA 数据的余弦相似性损失函数 
  • In Step 2, treating each cell in scATAC-seq data as a query, we identify the k-nearest neighbors (KNN) among scRNA-seq cells by measuring their distances in the common embedding space, and transfer the cell-type labels from scRNA-seq to scATAC-seq via majority vote. // 将所有的 scATAC-seq 数据当做“待调查”样本,通过 KNN 算法测量每一个样本与 scRNA-seq 的距离,通过多数投票的方法给“待调查”样本,从而确定每一个样本的“伪标签”。

  • In Step 3, we further improve the mixing between the two modalities by using the transferred labels in a metric learning loss. // 修改损失函数后进一步的优化对齐空间

    在第二步中,配对好伪标签后重新训练嵌入空间,此时将所有的数据全部纳入计算

    image-20220212013840436

    上面的算式计算了各个嵌入向量与其几何中心的距离

    下面的算式与第一步相似,此时计算交叉熵时同时计算 ATAC 的交叉熵。

Compared scJoint with other methods

文章主要通过与常用的 3 种数据整合方法进行对比:

整合两套独立的老鼠单细胞图谱数据:

  • scRNA-seq :96404 个细胞,20 种不同的器官,73 种细胞类型,共使用 2 套不同的流程获得的数据(具有较强的批次效应)
  • scATAC-seq:81173 个细胞,13 种不同的组织,29 种细胞类型

所使用的的数据集中,包括 19 种共同的细胞类型( 101,692 cells)。

模型评估-1

文章首先评估了共有的 19 种细胞类型。使用 scJoint 将scATAC-seq 数据与 scRNA-seq 的标签对齐。

显然,相比于另外三种整合方法,scJoint 的对齐方法效果明显更好

image-20220209170903953

image-20220209170929226

文章也通过计算轮廓相似度和 F1 值(与文章 label 比较)进行数值化评估

image-20220209172439236

图 B 左:横坐标代表的是细胞类型间的轮廓系数[-1,1],纵坐标代表的是 1-不同测序方法之间的轮廓系数(没啥意义)。总的来看,可以看出在细胞类型间,scJoint 的轮廓系数最大(类间距离大,类内距离小)。不同测序方法的离散程度几乎相同(根据公式不难算出,测序方法的轮廓系数接近0)。

image-20220209201027011

在不同的样本容积下,与文章的label 相比三种数据整合的方法相对稳定 scJoint 的分类准确率最高。再给予错误标签的情况下 scJoint 仍可以维持较高的稳定性(Supplementary Figure S4)

奇怪的是为什么没有比较 Liger

image-20220209202402841

另外,scJoint 的运行速度并不会随着数据量的增加呈指数级增加。因此,scJoint 更加的适合百万级别的数据

模型评估-2

上文提到,在单细胞数据中,有多达 79 种细胞类型,然而在 ATAC 数据中仅有 29 种细胞类型,并且数据中还存在部分‘Unknow’的细胞。因此作者进行了全数据评估。

直白一点的意思就是,把所有的 ATAC 数据的 label 全部当‘Unknow’仅仅根据 scRNA-seq 数据进行训练,然后将 ATAC 的数据与 scRNA-seq 数据对齐,从而获取各个 ATAC 的 label

image-20220209220736310

同样的,看图的话 scJoint 分群还是比较明显的,一部分原始标签为“Unknow”的细胞scJoint也进行了分群,并在基因表达层面进行了鉴定。

image-20220209221646800

These cells show high gene activity scores for Col1a1, Col1a2, Dcn and Ccdc80, all of which are markers with high expression levels in stromal cells and fibroblasts, but low expression levels in endothelial cells from the scRNA-seq data // 这些细胞显示了Col1a1、Col1a2、Dcn和Ccdc80的高基因活性得分,所有这些都是在基质细胞和成纤维细胞中高表达,在内皮细胞中低表达

单独的将 “Unknow” 细胞进行 tsne 分群,发现具有较明显的分群情况,且基因表型也证实了 scJoint 的注释结果

image-20220209222838432

总结一下:

  • 作者首先在标准数据中对 scJoint 方法进行评估,其准确率可达到84% 且对数据的标签分布具有较强的抗扰动性
  • 总体水平的评估也进一步的展示出scJoint 可以在一定程度上在强异质性数据上表现出很强的鲁棒性,且能够在更高的分辨率水平上对scATAC-seq细胞进行注释分群
  • 结论:scJoint 可以很好的实现基于 scRNA-seq 数据对 scATAC 数据进行迁移注释

Integration of multimodal data across biological conditions

不同处理条件下,细胞状态会发生变化。

在数据分析的时候,该现象会体现在数据的极端异质性。譬如,相同种类的细胞会以样本形式进行聚集,而非细胞类型。那么这时候就需要进行批次处理或者数据整合。然而,这种整合需要解决至少 2 种主要的潜在问题:

  • 如何有效的进行数据整合去除批次,并在最大程度上保留处理差异
  • 如何在最大程度上保留各个细胞类型的特异性差异

这两个条件是有点矛盾的,因此理论上是很难完成完美的整合。

对于 scJoint 来说,更倾向解决第二个问题,但是确实在一定程度上解决了第一个问题。作者收集了 CITE-seq ASAP-seq 数据,因为这两种技术能够同时获取染色质可及性数据和基因表达数据 // We consider multimodal measurements profiling gene expression levels or chromatin accessibility simultaneously with surface protein levels, which can be obtained via CITE-seq and ASAP-seq.

image-20220209234436840

上面这幅图很好的展示了这个结果,很明显,各个细胞类型间能够明显的分群(第一行)。没有明显的测序方法差异(第二行)。在细胞群内,不同的生物学条件下具有较好的分类边界。

在文章的最后,作者将 scJoint 方法用于配对的数据,即在一个细胞中同时测scATAC-seq 和 scRNA-seq。然后根据基因表达水平对细胞进行标记,训练模型。随后将 scATAC-seq 数据用于对齐。准确率~70%。

image-20220209235154460

总结一下:

  • 文章通过不同的角度证明 scJoint 在 ATAC 数据中的注释性能是具有很强的鲁棒性
  • 相比于传统的方法 scJoint 具有更快的运行速度和更高的分辨率水平

最后,这里的话我个人有点小疑问:

​ 如果说 RNA 表达水平与 ATAC 表达模式之间具有联系,且这种联系能够通过人工神经网络进行拟合的话。理论上配对的样本中应该有很好的结果,不应该只有 70%。是因为数据质量的问题吗?毕竟文章只评估了一套数据而已,所以很难下结论。

After advisement, if you still have questions, you can send me an E-mail asking for help
Best Regards,
Yuan.SH
---------------------------------------
please contact me via the following ways:
(a) E-mail: yuansh3354@gmail/163/outlook.com
(b) QQ: 1044532817
(c) WeChat: YuanSh181014
(d) Address: School of Basic Medical Sciences, 
Fujian Medical University, Fuzhou, 
Fujian 350108, China
---------------------------------------
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值