scFed:联邦学习用于scRNA-seq分类

scRNA-seq的出现彻底改变了我们对生物组织中细胞异质性和复杂性的理解。然而,大型,稀疏的scRNA-seq数据集的隐私法规对细胞分类提出了挑战。联邦学习提供了一种解决方案,允许高效和私有的数据使用。scFed是一个统一的联邦学习框架,允许在不侵犯数据隐私的情况下对四种分类算法进行基准测试,包括单细胞特定分类器和通用分类器。作者使用8个公开的具有不同大小、物种和技术的scRNA-seq数据集来评估scFed,并通过数据集内和数据集间的实验设置来评估其性能。发现scFed在各种数据集上表现良好,具有与集中式模型竞争的精度。尽管基于transformer的模型在集中训练方面表现出色,但其性能略落后于scFed框架内的细胞特定模型。scFed突出了联邦学习在保护隐私、协作生物医学研究方面的潜力

来自:scFed: federated learning for cell type classification with scRNA-seq
工程地址:https://github.com/digi2002/federatedSinglecell

背景概述

scRNA-seq将基因表达数据与样本中的单个细胞联系起来。RNA转录物的细胞异质性是回答疾病发展和治疗问题的关键。因此,通过scRNA-seq进行细胞类型鉴定一直是生物信息学的热点问题。

与bulk RNA-seq不同,由于每个细胞的测序深度有限,来自scRNA-seq的基因表达高度稀疏,这增加了模型过拟合的机会,阻碍了下游分析。观察到的dropout既可以是真实的基因表达水平,也可以是测量噪声的结果。此外,通过转录组分析测量的基因表达数据是高维数据。处理数据稀疏性和高维数的最简单有效的方法是增加样本量[2],因此,这需要访问大量不同的数据集。

整合多个数据集可以增强细胞类型识别的敏感性和鲁棒性,然而,由于隐私法规的限制,数据集聚合的来源往往会受到阻碍。正如[4]所强调的那样,包括scRNA-seq数据在内的生物信息学领域充满了伦理和隐私问题。有可能通过遗传数据识别个人,共享和转让个人遗传数据可能导致敏感的健康信息暴露。因此,制定了严格的法规,例如《通用数据保护条例》(GDPR)和《健康保险流通与责任法案》(HIPAA),以规范访问和分析此类数据的过程。鉴于这些限制,联邦学习帮助研究人员在不共享每个机构原始数据的情况下汇总和探索单细胞基因表达数据集方面发挥着至关重要的作用。

为了协作学习共享的细胞类型识别模型,同时将所有训练数据保持在本地,越来越多的联邦学习方法正在scRNA-seq细胞类型识别上快速发展。PriCell被提出作为一种用于疾病相关细胞分类的联邦学习方法[5]。scPrivacy以数据隐私保护的方式,利用联邦度量学习算法在多个机构数据集上训练联邦细胞类型识别模型[6]。PPML-Omics[7]分析了三种测序技术的数据,其中涉及了隐私保护的联邦学习框架。

这些方法与日益强调确保生物信息学中的数据隐私相一致,正如该领域所面临的挑战和关注所强调的那样。与传统的scRNA-seq分类方法相比,基于联邦学习的scRNA-seq分类方法相对较新,它们有一个共同的目标,即在不泄露私有信息的情况下准确标注细胞。各种机器学习方法,如神经网络、支持向量机(SVM),已被用于识别细胞类型。此外,基于transformer的模型已经成为细胞类型识别的另一种选择,利用它们的自注意机制来捕获复杂的细胞模式[9,10]。

虽然UniFed证明了分类方法的选择是影响联邦学习框架中模型性能的主要因素[11],但由于缺乏对scRNA-seq联邦学习中分类方法的详细比较研究,使得用户在该框架中没有明确的指导方针来选择适合其特定挑战的方法。

在这里,作者提出scFed作为一个统一的联邦学习框架来对一系列分类方法进行基准测试,为研究人员在确保数据隐私的同时进行scRNA-seq分析提供系统指导。scFed使用通用和细胞特异性分类器进行scRNA-seq细胞类型鉴定。SVM和XGBoost是通用分类器,而ACTINN是为scRNA-seq数据量身定制的。SVM和XGBoost的选择是基于它们在一系列数据集上的通用表现,而ACTINN因其在scRNA-seq数据中的专业知识而被纳入。

采用8个公开的不同大小、种类和技术的scRNA-seq数据集进行性能比较。基于准确率和计算时间对基于联邦学习的分类方法的性能进行了评价。执行了几个实验,涵盖了联邦学习和分类任务的不同方面,比如数据集、客户端数量和算法比较。还将基于transformer的模型Geneformer整合到scFed框架中,以评估其在细胞类型鉴定方面的潜力。虽然它显示出很好的分类能力,但它也提出了大量的计算需求。实验揭示了不同分类算法在分类性能和计算时间上的巨大差异,评估证明了scFed在多客户端数据集的隐私保护集成方面的有效性、时间效率和鲁棒性。

方法

为了定量评价单细胞分类的联邦学习框架,作者提出了scFed,并将几种单细胞分类算法集成到联邦学习框架中。

概述

scFed系统的工作流程,如图1所示。它是一个联邦学习框架,允许使用分散在大量不同客户端的分散数据来训练全局模型,而无需将客户端数据上传到服务器。本质上,该框架假设存在 N N N个激活的客户端,每个客户端都拥有自己的数据集,用 D k D_k Dk

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值