Briefings in Bioinformatics | 王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG...

在单细胞测序数据分析中,对细胞进行准确分类是数据分析的重要基础。在利用聚类算法将细胞进行分组后,需要通过鉴定不同细胞群特异表达的标记基因来注释细胞类型。同时,细胞标记基因在所有细胞类群中的表达模式也能够帮助判断聚类、标准化、批次效应校正等分析结果的准确性,进而进行参数优化。然而,如何准确鉴定不同细胞类型的细胞标记基因 (cell marker gene)仍面临巨大的挑战。

2022年1月19日,中国科学院遗传与发育生物学研究所的王秀杰研究组联合华中科技大学软件学院的裴小兵研究组在生物信息学期刊Briefings in Bioinformatics在线发表了题为Accurate and fast cell marker gene identification with COSG的研究成果,提出了一种基于余弦相似度的方法COSG,该方法能在单细胞RNA测序数据、单细胞ATAC测序数据和空间转录组数据中更准确和快速地鉴定出细胞标记基因。

830876a277a1c8a1d1f6c8500a056124.png

细胞标记基因鉴定需要准确找出在目标细胞类群中具有表达特异性的基因。目前常用的细胞标记基因鉴定方法通常基于统计分析来鉴定在目标细胞类群和其余细胞之间存在表达差异的基因,并以此作为目标细胞类群的标记基因【1-2】,例如目前最为常用的标记基因鉴定方法Wilcoxon test【3-6】。然而,当比较一种类型的细胞和其余多种类型细胞时,统计学方法选择的差异表达基因有时并不是真正的细胞标记基因,因此无法保证鉴定得到的细胞标记基因在目标类群细胞中存在表达特异性。例如,仅在目标细胞和一小群非目标细胞中高度表达,而在其他细胞中不表达的基因会被基于差异表达分析的统计方法选为目标细胞的标记基因,但这样的基因并不具备细胞类型特异表达性。值得注意的是,基于差异表达分析的统计方法是大多数单细胞数据分析工具包中默认的细胞标记基因鉴定方法,包括常用的Scanpy【7】和Seurat【8】。此外,随着单细胞RNA测序技术的完善和普及,每次实验捕获的细胞数量迅速增加【9】,目前可用的细胞标记基因鉴定方法在处理包含大量细胞的数据时往往存在运算速度慢的问题。随着单细胞ATAC测序技术和空间转录组测序技术的发展,也越来越需要一种能够从不同类型测序数据中鉴定细胞标记基因的通用方法。

为解决上述问题,王秀杰组联合裴小兵组开发了基于余弦相似度的COSG算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的相似性 (图1a)。在细胞空间内,每个维度代表一个细胞,每个基因在n维细胞空间内所对应的向量由n个基 (basis)组成,其中n为总细胞数。基因在每个基上的坐标代表该基因在每个细胞中的表达水平。因此,在n维细胞空间中,两个基因的余弦相似度等价于这两个基因所对应向量的夹角的余弦值。基因在所有细胞上的表达模式越相似,其对应向量的夹角也就越小。如果两个基因有相同的表达模式,那么无论它们的表达丰度是否存在差异,这两个基因所对应的向量之间的夹角为零。因此,余弦相似度的计算不受基因表达丰度值的影响【10】。同时,由于单细胞测序数据具有稀疏性 (包含大量零值)的特点,而余弦相似度对稀疏矩阵的计算非常高效,所以COSG能够更有效地鉴定出目标细胞类群中特异表达的基因。

在模拟数据和真实实验数据集上的评测结果表明,COSG鉴定出的标记基因或标记基因组区域具有更好的细胞类型特异性。同时,COSG具有很好的计算效率和可扩展性,能应用于超过百万细胞的大规模数据集,并在不到2分钟的时间内鉴定出超过100万个细胞的细胞标记基因,表明COSG相比于其他现有方法在准确性计算效率上具有明显优势 (图1)。

9d46fd126c0531b49946b6089ee96ae5.png

图1. COSG的计算流程和评测结果。(a) COSG的计算流程。(b) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG四种方法鉴定得到的RGL细胞前10个标记基因的富集得分比较。(c) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在三个不同单细胞ATAC测序数据集上的运行时间比较。(d) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG鉴定得到的心脏成纤维细胞的前3个标记基因的表达模式。

除了单细胞RNA测序数据,COSG还能够有效应用于单细胞ATAC测序数据和空间转录组数据。不同数据类型包含不同特点,例如单细胞ATAC测序数据相比于单细胞RNA测序数据有着更低的测序深度,同时包含更多的特征,而空间转录组数据中每个检测位点 (spot)中往往包含属于多个细胞类型的细胞,给细胞类型鉴定带来更大的挑战。实验结果表明,COSG对不同类型数据细胞标记基因鉴定的准确性均优于其他方法 (图2)。

0d22c016750949e57afdb153c8aec8a4.png

图2. Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在10x Genomics Visium的小鼠大脑空间转录组数据集上细胞标记基因鉴定效果的比较。(a) 10x Genomics Visium空间转录组从成年小鼠脑矢状面后部组织中检测到的3,355个信号位点的聚类结果。不同颜色代表不同的细胞分组。(b) UMAP投影展示(a)中的信号位点。不同颜色代表不同的细胞分组。(c)表达气泡图展示Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE) 和COSG四种方法鉴定得到的每个细胞类型的前3个细胞标记基因在所有细胞分组中的表达模式。

COSG程序的代码已通过GitHub网站开源发布。COSG程序的Python语言版本和R语言版本的代码链接分别为https://github.com/genecell/COSGhttps://github.com/genecell/COSGR,并且可以很方便地整合到常用的单细胞数据分析软件Scanpy【8】和Seurat【9】中。中国科学院遗传与发育生物学研究所王秀杰研究组的博士研究生戴敏为该论文的第一作者,中国科学院遗传与发育生物学研究所王秀杰研究员、华中科技大学软件学院的裴小兵教授为论文的共同通讯作者。

原文链接:https://doi.org/10.1093/bib/bbab579 (点击阅读原文直达)

参考文献

  1. Finak, G., McDavid, A., Yajima, M., Deng, J., Gersuk, V., Shalek, A.K., Slichter, C.K., Miller, H.W., McElrath, M.J., Prlic, M., et al. (2015). MAST: A flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data. Genome Biol. 16, 1–13.

  2. Soneson, C., and Robinson, M.D. (2018). Bias, robustness and scalability in single-cell differential expression analysis. Nat. Methods 15, 255–261.

  3. Elmentaite, R., Kumasaka, N., Roberts, K., Fleming, A., Dann, E., King, H.W., Kleshchevnikov, V., Dabrowska, M., Pritchard, S., Bolt, L., et al. (2021). Cells of the human intestinal tract mapped across space and time. Nature 597, 250–255.

  4. Litviňuková, M., Talavera-López, C., Maatz, H., Reichart, D., Worth, C.L., Lindberg, E.L., Kanda, M., Polanski, K., Heinig, M., Lee, M., et al. (2020). Cells of the adult human heart. Nature 588, 466–472.

  5. Ranzoni, A.M., Tangherloni, A., Berest, I., Riva, S.G., Myers, B., Strzelecka, P.M., Xu, J., Panada, E., Mohorianu, I., Zaugg, J.B., et al. (2021). Integrative single-cell RNA-Seq and ATAC-Seq analysis of human developmental hematopoiesis. Cell Stem Cell 28, 472-487.

  6. Squair, J.W., Gautier, M., Kathe, C., Anderson, M.A., James, N.D., Hutson, T.H., Hudelle, R., Qaiser, T., Matson, K.J.E., Barraud, Q., et al. (2021). Confronting false discoveries in single-cell differential expression. Nat. Commun. 12, 5692.

  7. Wolf, F.A., Angerer, P., and Theis, F.J. (2018). SCANPY: Large-scale single-cell gene expression data analysis. Genome Biol. 19, 15.

  8. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W.M., Hao, Y., Stoeckius, M., Smibert, P., and Satija, R. (2019). Comprehensive integration of single-cell data. Cell 177, 1888-1902.

  9. Svensson, V., Vento-Tormo, R., and Teichmann, S.A. (2018). Exponential scaling of single-cell RNA-seq in the past decade. Nat. Protoc. 13, 599–604.

  10. Haghverdi, L., Lun, A.T.L., Morgan, M.D., and Marioni, J.C. (2018). Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427.

往期精品(点击图片直达文字对应教程)

23ce5e5af160d07aca01d3c20b94fc59.png

30d7964360a9cebc8491f23f2ea48278.png

dc6d59c7cca94ed30d26945a30879396.png

12a65fbe1fd0a446c5b4a858f4f3eb71.png

73dbcd2d1958283f0506ac673f0ced9b.png

029e0def4a6a79acc4561968c8911d03.png

63cd8022df68b6b682e84812829729b7.png

f2b515d0e5b5cb56d47766665939ceea.png

70829c79c94987cd1540e3ecf464474b.png

5bdf5c18cbda4128be9bce3514dbdffb.png

0467bbb702cc41db9e769e94a3da881a.png

0d620687bd25fe8d54981a7c92a934c7.png

36151951d967d17b26a039706b4156cb.png

0c6b11b294c76d793d5c1c06354a2d78.png

e029ff02e5d8c657d155ab76286574e8.png

1217b5dd81a74377897d48171e1615fc.png

70ee5a03a98d2dea597ea32010238a91.png

7f1b51803f0c53ba5e50073f3a8d0989.png

b2a40b723e95c9678f894ab797b8bb9c.png

9c658e45aed4170a82203fd44a16c957.png

2aaf5b89b27a5c6f36d90254c5cd0a61.png

bdf2612ecc2c4a56ed7cc76dd080211a.png

f169a3c32edae762062947370725cfc7.png

001c2354d7b449d5a450d4fd6d59c4f7.png

c26ab3ae6bb8a0af2e3d9e7edfa10ed4.png

281da2f626023fc6ad58c24d2716784c.png

1dfb9c4338a9d0a9e3024b29335855a9.png

0176ad243fc7700d0f6b536a8cd6d675.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

3c106d4c57d0db7cae8078b302b59f47.png

a36ea2f5e8855840229722d1b82d3fff.png

EMC VPLEX VS2 控制台更换是指对EMC VPLEX VS2 存储设备的管理界面进行更换或更新的操作。 EMC VPLEX VS2 控制台是一个提供给管理员和操作员使用的图形化界面,用于管理和监控 VPLEX 存储设备的各项功能和配置。控制台通常由软件提供,可以安装在特定的服务器上,通过网络与 VPLEX 设备进行通信。 控制台更换是指将原有的控制台软件升级或替换为新的版本,以提供更好的功能和用户体验。控制台更换的步骤通常包括以下几个方面: 1. 确认新控制台软件的兼容性:在进行更换之前,需要验证新控制台软件是否与当前使用的 VPLEX VS2 存储设备兼容。如果不兼容,则需要考虑其他解决方案。 2. 备份原有配置:在进行更换之前,需要对原有的控制台配置进行备份,以防止丢失配置信息。备份可以通过导出当前的配置文件或设置文件来完成。 3. 升级或替换控制台软件:根据新控制台软件的要求,进行相应的升级或替换操作。这通常需要在控制台所在的服务器上执行软件安装程序,并按照提示进行相应的操作。 4. 恢复配置:在更换完成后,将备份的配置文件导入到新控制台中,以恢复原有的配置信息。这包括网络连接、存储卷配置、备份策略等。 5. 测试和验证:在更换完成后,需要进行一系列的测试和验证,确保新控制台软件正常工作,并且能够正确地管理和监控 VPLEX VS2 存储设备。 综上所述,EMC VPLEX VS2 控制台更换是一个复杂且关键的操作,需要仔细规划和操作。在进行更换之前,需要确保新控制台软件的兼容性,并备份原有的配置信息。在更换过程中,需要按照指南的步骤进行,并在完成后进行测试和验证,以确保系统的稳定性和安全性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值