MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING

通过提示学习进行多级蛋白质结构预训练

期刊:ICLR2023

作者:浙江大学团队


背景

蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。

大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。

相关工作

Protein Representation Models(从一级结构出发)

  • Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.
  • Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.
  • Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.
  • Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.

Protein Representation Models(从三级结构出发)

  • Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。
  • Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。

缺陷:

少有工作使用四级结构来丰富蛋白质表征。

两个挑战

how to design proper pre-training tasks for different protein structures?

how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?

作者工作

  • 提出了一种新的提示引导的多任务预训练和微调框架。
  • 通过提示引导的多任务预训练,我们学习多个提示信号来引导模型(称为 PromptProtein)专注于不同级别的结构。
  • 设计了一个即时微调模块,为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明
  • 这是第一个基于提示的预训练蛋白质模型。

The architecture overview of PromptProtein

方法

PROMPT-AWARE ATTENTION MODULE

Attention mask

Skip connection

PROTEIN MULTI-LEVEL STRUCTURES LEARNING

为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务

Masked language modeling

此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;

Alpha-Carbon Coordinate Prediction(α-碳坐标预测

二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构

Protein-Protein Interaction prediction(蛋白质相互作用预测

预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用

PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING

对应三个预训练任务,提示可以实例化为三个token之一:

提示引导的多任务预训练的目标函数可以表示为:

当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。

结果与分析

PRE-TRAINING SETUP

对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。

DOWNSTREAM TASK DATASETS

Model performance on EC numbers and GO terms prediction tasks

How do prompts determine the processing pathways of structural information?

在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性

Can PromptProtein learn multi-level structures?

图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组

图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。

在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。

Do downstream tasks benefit from the acquired information on-demand by prompt tuning?

为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。

这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。

结论

在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值