论文阅读:scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell

目录

论文信息

背景意义

解决的问题

模型

gene embedding

exprssion embedding


论文信息

        这是一篇2022年发表在nature machine intelligence的论文,作者来自腾讯AI Lab。

        原文链接:https://doi.org/10.1038/s42256-022-00534-z

背景意义

        单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),便于更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果,对于「精准医疗」具有极高的应用价值。

解决的问题

        受数据样本量小、人工干预多、过度依赖 marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。

        针对以上问题,新研究首次提出「基于大规模预训练语言模型的单细胞转录组细胞类型注释算法」,即「scBERT」模型,首次将「transformer」(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。该模型基于 BERT 范式,将细胞中基因的表达信息转化成可被计算机理解、学习的「语言」,并对细胞进行精准标注。

模型

         预训练:对expression先进行分箱,分箱过程在expression embedding进行详细描述。分箱后随机掩蔽,再进行embedding到200维,与gene embedding相加后加入performer块。

        微调:分箱后对embedding进行嵌入表示,与gene embedding相加后进入performer块。

 

gene embedding(gene2vec)

文中使用的方法gene2vec,方法原文DOI: 10.1186/s12864-018-5370-x

这是一种基于共表达的表示方法

  • 数据集:从GEO导出的984个全转录组人类基因数据集,在每个data set中,选择Pearson系数高于0.9的基因对作为共表达基因。
  • 输入和输出:输入是基因对(相当于一个sentence),每行两个基因,输出为0或1(无/有基因间相互作用)

 

exprssion embedding

这部分的主要处理在与分箱,后续的嵌入表示,使用nn.embedding即可。

数据的格式是h5ad,这里面有一个参数X,是基因表达矩阵,对X的每一行进行如下操作:

1. 每一行的表达值加和=1000

2. 进行对数变化:log1p

3. 使用.long()取整。

通过以上步骤就可以把连续的表达值离散化。

Performer

关于performer的介绍可以参考:AI研习社 - 研习AI产学研新知,助力AI学术开发者成长。

数学推导过程:

Performer:用随机投影将Attention的复杂度线性化 - 科学空间|Scientific SpacesAttention机制的$\mathscr{O}(n^2)$复杂度是一个老大难问题了,改变这一复杂度的思路主要有两种:一是走稀疏化的思路,比如我们以往介绍过的Sparse Attention以及...https://spaces.ac.cn/archives/7921

实验结果

没有全部贴出来,具体结果可以看原文

在6个数据集上,不同方法对准确性对比

Zheng 68 K(严重的细胞类型失衡和亚型之间极高的相似性)数据集原始的专家注释的细胞类型着色;右图由scBERT预测结果着色

scBERT、Seurat和CellID_cell的Zheng68K数据集交叉验证结果混淆矩阵的热图

分割不同比例的Zheng68K数据集作为微调参考集对细胞类型注释性能的影响。随机选择来自Zheng68K数据集的10%、30%、50%、70%和90%的PBMC细胞作为用于微调的参考,而剩余的作为用于测试的查询样本

 

预测结果,真实分类对比,用人肝组织评估未知细胞类型鉴定,MacParland数据集,4种类型,每次从中取出一种类型进行,用于验证,其他用于训练

scBERT的置信度分数和Sankey图比较了scBERT对已知类型和新细胞类型的预测与MacParland数据集的原始细胞类型注释 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值