ProtTrans：使用迁移学习利用自监督模型理解蛋白质“语言”

最新推荐文章于 2025-04-27 17:50:44 发布

LRJ-jonas

最新推荐文章于 2025-04-27 17:50:44 发布

阅读量2.6k

点赞数 1

分类专栏：神经网络文章标签：人工智能

原文链接：https://zhuanlan.zhihu.com/p/562477675

版权

神经网络专栏收录该内容

8 篇文章

订阅专栏

文章探讨了如何利用蛋白质的一维序列预测其三维结构，强调了结构对于理解蛋白质功能的重要性。通过迁移学习方法，特别是预训练的蛋白质语言模型（如BERT、ALBERT、Transformer-XL和T5），可以在大量未标注的序列数据上进行学习，进而应用于二级结构预测等任务。文中还介绍了不同模型的特性，如ALBERT的参数减少技术和Transformer-XL的长序列处理能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

蛋白质的一维序列决定蛋白质的三维结构。已知的蛋白质序列比已知的蛋白质结构，数量多很多。了解结构有助于解析蛋白功能。迁移学习有助于挖掘大量未标注的序列数据，助力蛋白质的后续研究。

蛋白质序列作为句子，氨基酸作为单词。蛋白质序列受到限制，只能采用特定的3D的结构，实现特定的功能，这些限制类似NLP中语法和句意的规则。

蛋白质语言模型(pLMs)将氨基酸作为tokens，整个蛋白质序列作为sentences。在Step1中，pLMs通过已知的序列自监督预测masked tokens，这一步只使用没有任何注释的蛋白质序列作为输入。Step2中，提取学习到的pLMs的嵌入，并使用它们作为输入迁移到有监督的残基级别或蛋白级别的训练任务中(如二级结构预测、跨膜蛋白和亚细胞定位)。

单词(words/tokens)的概念与单个氨基酸、氨基酸数量的滑窗(k-mer motifs)或功能单位(functional units)有关，本文将单个氨基酸作为输入的words/tokens。Uniref50、UniRef100和BFD中的蛋白质序列的单词之间使用一个空格表示单词边界。每个蛋白质序列保存在单独的行中，作为一个句子。在某些辅助任务中，氨基酸序列后面插入空行，表明文档的结束符号。非通用的或不确定的氨基酸([BOUZ])一律设定为unknown(X)。

在蛋白质序列上训练了六个NLP中成功的模型(XLNet(2020)、Electra(2020)、BERT(2019)、ALBERT(2020)、Transformer-XL(2019)、T5(2019))。

BERT是首个将masked tokens重构的双向语言模型，被认为是NLP中迁移学习的标准。

ALBERT(A Lite BERT)是一种轻量级的BERT，它通过两种降低参数的技术，factorized embedding parameterization 和 cross-layer parameter sharing，达到降低参数数量的效果。其中，factorized embedding parameterization通过引入一个维度较小的隐藏层，将参数因式分解，达到减少参数的目的，cross-layer parameter sharing，模型中全连接层、注意力层的参数均是共享的，也就是 ALBERT 依然有多层的深度连接，但是各层之间的参数是一样的。

很明显的，通过这种方式，ALBERT 中隐藏层的参数量变为原来的 1/12 或者 1/24(BERT_base 中，包含 12 层中间的隐藏层；BERT_large 中，包含 24 层中间的隐藏层；各层之间的参数均不共享)。在 BERT 中，句子间关系的任务是 next sentence predict(NSP)，即向模型输入两个句子，预测第二个句子是不是第一个句子的下一句。在 ALBERT 中，句子间关系的任务是 sentence-order prediction(SOP)，即句子间顺序预测，也就是给模型两个句子，让模型去预测两个句子的前后顺序。文中介绍，SOP 是比 NSP 要更为复杂的任务，相比于 NSP，通过 SOP 任务模型能够学到更多的句子间的语义关系。

Transformer-XL是对Transformer的改进或变种，主要是解决长序列的问题，其中XL表示extra long。提出片段级递归机制(segment-level recurrence mechanism)，引入一个记忆(memory)模块（类似于cache或cell），循环用来建模片段之间的联系。提出相对位置编码机制(relative position embedding scheme)，代替绝对位置编码，在memory的循环计算过程中，位置编码可重用。

T5模型给整个 NLP 预训练模型领域提供了一个通用框架，把所有任务都转化成一种形式，用同样的模型，同样的损失函数，同样的训练过程，同样的解码过程来完成所有 NLP 任务(Text-to-Text)。

模型有的使用编码器(BERT、ALBERT、Electra)，或者解码器(Transformer-XL、XLNet)，T5表明这种简化会付出代价，因此T5达到了目前的SOTA。