ProtTrans:使用迁移学习利用自监督模型理解蛋白质“语言”

文章探讨了如何利用蛋白质的一维序列预测其三维结构,强调了结构对于理解蛋白质功能的重要性。通过迁移学习方法,特别是预训练的蛋白质语言模型(如BERT、ALBERT、Transformer-XL和T5),可以在大量未标注的序列数据上进行学习,进而应用于二级结构预测等任务。文中还介绍了不同模型的特性,如ALBERT的参数减少技术和Transformer-XL的长序列处理能力。
摘要由CSDN通过智能技术生成

蛋白质的一维序列决定蛋白质的三维结构。已知的蛋白质序列比已知的蛋白质结构,数量多很多。了解结构有助于解析蛋白功能。迁移学习有助于挖掘大量未标注的序列数据,助力蛋白质的后续研究。

蛋白质序列作为句子,氨基酸作为单词。蛋白质序列受到限制,只能采用特定的3D的结构,实现特定的功能,这些限制类似NLP中语法和句意的规则。

 蛋白质语言模型(pLMs)氨基酸作为tokens整个蛋白质序列作为sentences。在Step1中,pLMs通过已知的序列自监督预测masked tokens,这一步只使用没有任何注释的蛋白质序列作为输入。Step2中,提取学习到的pLMs的嵌入,并使用它们作为输入迁移到有监督的残基级别或蛋白级别的训练任务中(如二级结构预测、跨膜蛋白和亚细胞定位)。

单词(words/tokens)的概念与单个氨基酸、氨基酸数量的滑窗(k-mer motifs)或功能单位(functional units)有关,本文将单个氨基酸作为输入的words/tokens。Uniref50、UniRef100和BFD中的蛋白质序列的单词之间使用一个空格表示单词边界。每个蛋白质序列保存在单独的行中,作为一个句子。在某些辅助任务中,氨基酸序列后面插入空行,表明文档的结束符号。非通用的或不确定的氨基酸([BOUZ])一律设定为unknown(X)

 

在蛋白质序列上训练了六个NLP中成功的模型(XLNet(2020)、Electra(2020)、BERT(2019)、ALBERT(2020)、Transformer-XL(2019)、T5(2019))。

BERT是首个将masked tokens重构的双向语言模型,被认为是NLP中迁移学习的标准。

ALBERT(A Lite BERT)是一种轻量级的BERT,它通过两种降低参数的技术,factorized embedding parameterization cross-layer parameter sharing,达到降低参数数量的效果。其中,factorized embedding parameterization通过引入一个维度较小的隐藏层,将参数因式分解,达到减少参数的目的,cross-layer parameter sharing,模型中全连接层、注意力层的参数均是共享的,也就是 ALBERT 依然有多层的深度连接,但是各层之间的参数是一样的。

很明显的,通过这种方式,ALBERT 中隐藏层的参数量变为原来的 1/12 或者 1/24(BERT_base 中,包含 12 层中间的隐藏层;BERT_large 中,包含 24 层中间的隐藏层;各层之间的参数均不共享)。在 BERT 中,句子间关系的任务是 next sentence predict(NSP),即向模型输入两个句子,预测第二个句子是不是第一个句子的下一句。在 ALBERT 中,句子间关系的任务是 sentence-order prediction(SOP),即句子间顺序预测,也就是给模型两个句子,让模型去预测两个句子的前后顺序。文中介绍,SOP 是比 NSP 要更为复杂的任务,相比于 NSP,通过 SOP 任务模型能够学到更多的句子间的语义关系。

Transformer-XL是对Transformer的改进或变种,主要是解决长序列的问题,其中XL表示extra long。提出片段级递归机制(segment-level recurrence mechanism),引入一个记忆(memory)模块(类似于cache或cell),循环用来建模片段之间的联系。提出相对位置编码机制(relative position embedding scheme),代替绝对位置编码,在memory的循环计算过程中,位置编码可重用。

T5模型给整个 NLP 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式,用同样的模型,同样的损失函数,同样的训练过程,同样的解码过程来完成所有 NLP 任务(Text-to-Text)。

模型有的使用编码器(BERT、ALBERT、Electra),或者解码器(Transformer-XL、XLNet),T5表明这种简化会付出代价,因此T5达到了目前的SOTA。

由于Transformer模型的限制,这里提出的模型如ProtBERT, ProtAlbert, ProtElectra也对蛋白长度做出限制,≤512或≤1024,Transformer-XL和XLNet可以处理长序列。上图中也显示了模型在哪些数据集中进行了预训练。

下面的介绍基本上就是介绍与原模型相比,参数有何改变,具体可看原文。

ProtBert:使用UniRef100和BDF100进行训练,与原始的BERT模型相比,层数增加了。模型分别在短序列(512)和长序列(2k)上都训练过,首先从较短的序列中提取有用的特征,同时使用较大的批次处理,以对长序列的训练更有效。

 

提取蛋白质语言模型的最后一层隐藏层的表示,然后将其用t-SNE投影到2维分析。

 

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值