论文阅读：scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell

最新推荐文章于 2024-04-05 15:36:28 发布

小胖丸子

最新推荐文章于 2024-04-05 15:36:28 发布

阅读量252

点赞数 1

文章标签： python transformer bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40835865/article/details/132042611

版权

目录

解决的问题

exprssion embedding

论文信息

这是一篇2022年发表在nature machine intelligence的论文，作者来自腾讯AI Lab。

原文链接：https://doi.org/10.1038/s42256-022-00534-z

背景意义

单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱（细胞表达），便于更好地了解肿瘤微环境，以达到精细分析病因、精准匹配治疗方案的效果，对于「精准医疗」具有极高的应用价值。

解决的问题

受数据样本量小、人工干预多、过度依赖 marker gene（已报道的特异性基因）等因素的影响，单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题，现存的算法难以有更广泛的应用。

针对以上问题，新研究首次提出「基于大规模预训练语言模型的单细胞转录组细胞类型注释算法」，即「scBERT」模型，首次将「transformer」（自然语言处理算法经典计算单元）运用到单细胞转录组测序数据分析领域。该模型基于 BERT 范式，将细胞中基因的表达信息转化成可被计算机理解、学习的「语言」，并对细胞进行精准标注。

模型

预训练：对expression先进行分箱，分箱过程在expression embedding进行详细描述。分箱后随机掩蔽，再进行embedding到200维，与gene embedding相加后加入performer块。

微调：分箱后对embedding进行嵌入表示，与gene embedding相加后进入performer块。

gene embedding（gene2vec）

文中使用的方法gene2vec，方法原文DOI: 10.1186/s12864-018-5370-x

这是一种基于共表达的表示方法

数据集：从GEO导出的984个全转录组人类基因数据集，在每个data set中，选择Pearson系数高于0.9的基因对作为共表达基因。
输入和输出：输入是基因对（相当于一个sentence），每行两个基因，输出为0或1（无/有基因间相互作用）

exprssion embedding

这部分的主要处理在与分箱，后续的嵌入表示，使用nn.embedding即可。

数据的格式是h5ad，这里面有一个参数X，是基因表达矩阵，对X的每一行进行如下操作：

1. 每一行的表达值加和=1000

2. 进行对数变化：log1p

3. 使用.long()取整。

通过以上步骤就可以把连续的表达值离散化。

Performer

关于performer的介绍可以参考：AI研习社 - 研习AI产学研新知，助力AI学术开发者成长。

数学推导过程：

Performer：用随机投影将Attention的复杂度线性化 - 科学空间|Scientific SpacesAttention机制的$\mathscr{O}(n^2)$复杂度是一个老大难问题了，改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如我们以往介绍过的Sparse Attention以及...https://spaces.ac.cn/archives/7921

实验结果

没有全部贴出来，具体结果可以看原文

在6个数据集上，不同方法对准确性对比

Zheng 68 K（严重的细胞类型失衡和亚型之间极高的相似性）数据集原始的专家注释的细胞类型着色;右图由scBERT预测结果着色

scBERT、Seurat和CellID_cell的Zheng68K数据集交叉验证结果混淆矩阵的热图

分割不同比例的Zheng68K数据集作为微调参考集对细胞类型注释性能的影响。随机选择来自Zheng68K数据集的10%、30%、50%、70%和90%的PBMC细胞作为用于微调的参考，而剩余的作为用于测试的查询样本

预测结果，真实分类对比，用人肝组织评估未知细胞类型鉴定，MacParland数据集，4种类型，每次从中取出一种类型进行，用于验证，其他用于训练

scBERT的置信度分数和Sankey图比较了scBERT对已知类型和新细胞类型的预测与MacParland数据集的原始细胞类型注释

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文阅读：scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell

受数据样本量小、人工干预多、过度依赖 marker gene（已报道的特异性基因）等因素的影响，单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题，现存的算法难以有更广泛的应用。随机选择来自Zheng68K数据集的10%、30%、50%、70%和90%的PBMC细胞作为用于微调的参考，而剩余的作为用于测试的查询样本。预测结果，真实分类对比，用人肝组织评估未知细胞类型鉴定，MacParland数据集，4种类型，每次从中取出一种类型进行，用于验证，其他用于训练。
复制链接

扫一扫

小胖丸子 CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

81万+: 周排名

133万+: 总排名

1000: 访问

: 等级

24: 积分

2: 粉丝

2: 获赞

2: 评论

11: 收藏

私信

关注

热门文章

最新评论

论文阅读：scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell
CSDN-Ada助手: 非常棒的博客！你对单细胞测序细胞类型注释技术的问题进行了深入的分析，并提出了一个新的算法scBERT。这将为解决泛化性、可解释性和稳定性低的问题提供更广泛的应用。我鼓励你继续创作，分享更多关于这个领域的知识。除了你提到的算法和数据集，还有一些扩展知识和技能可能对你的研究有帮助。例如，你可以了解更多关于深度学习和自然语言处理的技术，以进一步优化你的模型。此外，你还可以考虑使用其他的单细胞测序数据集进行验证，以增加实验的可靠性。再次感谢你的分享，期待看到更多关于单细胞测序细胞类型注释技术的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
R语言网络社团划分可视化及可信度
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613938198。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

R语言网络社团划分可视化及可信度

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。