【论文阅读】ProteinBERT: a universal deep-learning model of protein sequence and function

GUANYX~

已于 2024-08-26 21:55:30 修改

阅读量1.1k

点赞数 18

文章标签：论文阅读

于 2024-08-26 20:07:33 首次发布

本文链接：https://blog.csdn.net/gyx1549624673/article/details/141571932

版权

论文阅读：ProteinBERT: a universal deep-learning model of protein sequence and function

研究问题：这篇文章要解决的问题是如何设计一个专门用于蛋白质序列和功能的深度学习模型。现有的自然语言处理模型（如BERT）虽然成功应用于文本分析，但其架构和预训练方法并不适合蛋白质序列。
研究难点：该问题的研究难点包括：蛋白质序列没有明确的多字母构建块（如单词和句子），且长度变化较大；蛋白质的三维结构导致远端位置之间存在许多相互作用。
相关工作：现有的蛋白质研究主要依赖于经典的序列相似性方法（如BLAST和隐马尔可夫模型），而深度学习在计算机视觉领域取得了显著进展，但在蛋白质领域仍然处于起步阶段。一些最近的研究尝试将深度神经网络模型预训练在蛋白质序列上，但这些工作通常直接引入自然语言领域的架构和任务，未能充分利用蛋白质的独特特性。

这篇论文提出了ProteinBERT，一种专为蛋白质序列设计的深度语言模型。具体来说，

数据预处理：蛋白质序列被编码为整数标记序列，使用26个唯一标记表示20种标准氨基酸、硒代半胱氨酸（U）、未定义氨基酸（X）和其他氨基酸（OTHER）。每个序列在前后分别添加START和END标记，较短的序列则填充PAD标记。
自监督预训练：模型在约106M个UniRef90蛋白质上进行预训练，同时进行双向语言建模和基因本体论（GO）注释预测。蛋白质序列的损坏通过随机替换标记进行，GO注释的损坏通过随机移除和添加注释进行。损失函数包括蛋白质序列的语言建模损失和GO注释的二进制交叉熵损失。
架构设计：ProteinBERT的架构包括局部和全局表示路径。局部表示路径通过一系列带有跳跃连接和层归一化的变换器样块处理，全