Arxiv | 基于蛋白质语言模型的上下文元学习-CSDN博客

本文链接：https://blog.csdn.net/2401_85373898/article/details/145157112

今天分享的是ICLR 2025上在审的一篇题为“METALIC: Meta-Learning In-Context with Protein Language Models”的研究文章。该文章提出了在标准适应度预测任务分布上进行元学习的方法。

摘要

预测蛋白质的生物物理和功能特性对于进行计算机蛋白质设计至关重要。机器学习已成为完成此类预测任务的一种有前途的技术。然而，体外注释的相对稀缺意味着这些模型通常只有很少或根本没有所需的适应性预测任务的具体数据。由于数据有限，蛋白质语言模型(PLMs)通常是在蛋白质序列建模任务中进行训练，再进行微调或直接应用于蛋白质适应度预测。当没有任务数据可用时，这些模型通常假设适应性与PLM预测的蛋白质序列似然性直接相关。本文提出了在标准适应性预测任务分布上进行元学习的方法，并证明了该方法对未见过的适应性预测任务具有积极的迁移作用。本文方法称为 Metalic(Meta-Learning In-Context)，在数据可用时使用上下文学习和微调来适应新任务。最重要的是，微调可以实现相当大的泛化，尽管在元训练过程中并没有考虑到这一点。本文方法的微调模型以比最先进模型少18倍的参数取得了很好的结果。此外，本文方法在ProteinGym（一个已建立的适应度预测基准）的少样本设置中取得了最先进的效果。

1 INTRODUCTION

准确预测蛋白质的功能和生物物理性质（统称为适应性）是生物科学中的一个关键挑战，对医学研究、农业和药物发现有着深远的影响。例如，适应性预测可用于优化单克隆抗体治疗与其靶点的结合亲和力，或在高温下发挥作用的酶的热稳定性。虽然蛋白质适应性可以在体外测量，但这一过程既费时又费力。因此，机器学习模型已经成为一种可以直接从氨基酸序列中预测适应性的强大工具。然而，由于蛋白质序列与适应性之间复杂、高维的关系，以及高质量数据的有限可用性，准确的适应度预测是一个挑战。

蛋白质可以被编码为代表氨基酸的字符序列，这使得蛋白质语言模型(PLMs)可以有效地对其建模。通过在大规模已知蛋白质上预测掩蔽氨基酸或后续氨基酸，PLMs能够捕捉到由氨基酸序列产生的结构和属性的大部分信息。虽然PLMs并不是直接训练来预测适应性的，但它们被训练来模拟自然产生的蛋白质的似然性，这与它们的适应性高度相关。在实践中，大型PLMs会根据下游蛋白质适应性数据进行微调以进行回归。虽然PLMs非常有效，但在数据严重有限或没有数据的情况下，PLMs的效用有限。在数据有限的情况下，即使有信息丰富的预训练表示，学习正确的回归也很困难。在没有数据的情况下，必须假设蛋白质适应性仅仅是蛋白质似然性的函数，并且对于掩蔽语言模型，还假设每个氨基酸对适应性的贡献是独立的。

虽然特定蛋白质适应性预测任务的数据可能有限或缺失，但通常还有其他任务可以作为宝贵的指导资源。例如，当给定任务没有数据可用时，可以使用来自其他任务的数据来学习PLMs嵌入和适应度之间的关系，而不是假设适应性仅仅是蛋白质似然性的函数。由于高通量测定技术的进步，如深度突变扫描，可以从其他任务中获得数据来学习这种关系。一个例子是ProteinGym ，它编译了超过100个不同的适应度预测任务。在相关任务的分布上进行训练，从而推理新任务，这种训练被称为元学习。

_为了解决蛋白质适应度预测数据有限的挑战，本文提出了Metalic，集成了上下文元学习、蛋白质语言模型和微调。_Metalic建立在PLM嵌入和微调方法的基础上，但与基线方法不同的是，它在其他蛋白质预测任务之上增加了一个元学习阶段。而有一些PLMs使用上下文数据，这些方法没有使用元学习如何利用它们有限的上下文来进行蛋白质适应性预测。

元学习阶段如图1所示，鉴于测试时每个任务中可用的适应性数据有限，元学习阶段对于学习PLM嵌入和适应性之间的关系至关重要。而一些元学习方法结合了上下文学习和微调，他们通过使用计算成本较高的高阶梯度来实现这一目标，以考虑元学习期间的微调。重要的是，Metalic利用了上下文中的元学习以及随后的微调，而没有考虑到在元学习过程中的微调。这种新颖的组合特别具有计算效率，使Metalic在元学习中比更复杂的方法表现更好。

本文提出了一种上下文元学习方法Metalic，用于解决少数据设置下的蛋白质适应度预测问题，并做出了以下贡献：

介绍了一种有效地将上下文元学习与PLM和微调相结合的方法，用于蛋白质适应度预测。
在ProteinGym基准上推进了最先进的zero-shot蛋白质适应度预测。
以18倍少的参数实现了对少量适合度预测的强大性能。
去除方法的每个组成部分，以展示每个部分的贡献，并强调它们的必要性。
通过实验验证了本文方法优于其他形式的元学习。

2 RELATED WORK

1、元学习

元学习旨在通过在多个任务的分布上进行训练，创建一个样本高效的算法，使其能够在推理时快速适应新任务。元学习主要有两种形式：基于梯度的元学习和上下文元学习。基于梯度的算法和上下文算法在计算效率和非分布泛化能力方面存在差异。基于梯度的方法使用标准的基于梯度的学习明确地在内循环中调整模型参数。通常，参数初始化是学习的，适应新任务只需几个梯度步骤。然而，这带来了相当大的计算开销，这使得基于梯度的元学习不太适合大型模型。另一种元学习通过在环境中特定于任务的数据集上条件化序列模型来适应。这些方法以基于梯度的方法训练的数据点为条件。此类方法通常比基于梯度的方法更具有样本和计算效率，但由于内循环中缺乏显式的基于梯度的学习，因此在分布外任务中表现更差。与训练上下文学习不同，预训练的大型语言模型的上下文学习也可用于进行元学习；然而，这缺乏泛化保证，需要同时在上下文中拟合所有任务，这对于本文的数据大小是不可能的。

本文提出的Metalic在不考虑微调的情况下，仅使用上下文元学习，发现这为后续微调提供了强大的基础，并且两者对于高性能都是关键的。

2、基于似然的适应度预测与PLMs

在蛋白质适应性预测中，利用预训练的蛋白质语言模型PLMs已成为标准做法。-在few-shot情况下，原本用于序列生成的PLMs通过微调来重新用于蛋白质适应性预测。-在zero-shot设置中，通常假设适应性与PLM预测的蛋白质序列的似然性相关。此外，如果使用掩蔽PLM，通常还假设每个氨基酸对适应性的贡献是独立的。

与以往工作不同，本文的方法不仅利用PLMs进行蛋白质适应性预测，还利用了额外的数据，即其他蛋白质上的适应性预测任务。具体来说，本文通过元学习来学习如何使用PLM进行蛋白质适应性预测，而不是依赖于序列似然性假设。只有在元学习之后，才对模型进行微调，如图1所示。通过跨任务的元学习，可以避免对模型施加限制性约束，并实现最先进的性能。本文将表明，在少样本的环境中，为了获得强大的结果，上下文元学习是必要的。

3、In-Context PLMs

本文的方法建立在现有的利用上下文数据进行蛋白质适应性预测的PLMs之上。然而，这些方法没有通过元学习来学习如何利用其上下文。它们要么仅学习使用上下文进行蛋白质语言建模，然后假设生成的似然性与适应性相关；要么使用上下文进行蛋白质适应性预测，但不是通过在蛋白质任务上进行元学习。其中ProteinNPT是与本文方法最相关的，因为使用相同的注意力架构来条件上下文中相关蛋白质的适应度信息，并且它使用梯度步骤来微调目标任务。

与这些方法相比，本文的方法通过在多个任务上进行元学习来学习如何利用适应性信息，这是本文发现的关键。此外，本文的方法是第一个允许在推理时同时进行微调和上下文条件化的程序。

3 METHODS

3.1 问题定义

将一个适应性预测任务定义为一个数据集, 包含蛋白质的氨基酸序列及其对应的适应性值。

在few-shot设置中，预测特定适应性任务时，将该任务数据被分成不相交的支持集和查询集：

. 支持集和查询集大小分别为和。支持集为特定任务的微调提供数据，查询集为评估微调后的性能提供数据。

为了进行元学习，需要从多个不同的适应性预测任务中学习。完整的任务集可以看作是定义了一个任务的分布，它可以分为训练任务和测试任务。具体来说，对于上下文中的元学习，目标是学习一个参数（θ）的函数，其输入是全部支持集和未标记查询集。

在本文的方法中，在进行蛋白质适应性预测时，模型并不是直接预测每个蛋白质序列的具体适应性数值，而是遵循之前的工作，使用一种基于偏好的目标（学习数据之间的偏好关系）来对查询集中的蛋白质序列进行排序。

3.2 方法介绍

1、架构

Metalic利用了已有的ProteinNPT架构作为适合度预测的上下文PLM基础模型。该架构将蛋白质序列和适应性分数转换为嵌入表示，并通过轴向注意力模块进行处理，沿着蛋白质序列的长度（序列轴）和任务支持集的样本数量（样本轴）分别进行自注意力计算。最后，通过MLP根据适应性嵌入和序列嵌入的均值池化结果来预测查询集中每个蛋白质的适应性值，然后利用对蛋白质的适应度进行排序。

2、元学习

用于元学习的架构和数据如图2a所示。首先，将两个序列的相对适应性预测问题转化为二元分类问题，预测序列是否比具有更高的适应度：, 其中σ是一个sigmoid函数。

随后，通过最大化查询集中每一对序列之间的的偏好预测准确性来优化模型参数，同时避免对支持集的过度记忆：

其中II是一个指示器函数。

将其应用到元学习中，目标变成找到找到一个参数化，使得模型在任务分布上的损失最小化：

3、微调

在推理时，Metalic通过在支持集上进行微调来实现泛化，而不需要在元训练期间考虑微调过程，该过程如图2b所示。

为了避免过度记忆支持集，从支持集中子采样出多个较小的支持集和查询集，用于计算微调更新。微调过程与元训练过程相同。具体来说，这对应于使用目标对未见数据进行微调:

4 EXPERIMENT

4.1 实验设置

数据集：使用ProteinGym基准测试中的深度突变扫描任务进行评估。ProteinGym的每一项任务都要测量一组蛋白质的某种特性，这些蛋白质与参考野生型蛋白质的差异在于一个或多个氨基酸。本文从ProteinGym中获取了121个单突变任务和68个多突变任务，在实验中评估了8个单突变体任务和5个多突变体任务。在评估单突变体时，使用113个单突变体和68个多突变体任务进行训练（第4.2节和4.3节）；在评估多突变体时，使用121个单突变体和63个多突变体任务进行训练（第4.4节）。

评估指标：使用Spearman秩相关系数作为评估指标，计算模型预测与真实适应性值之间的相关性，并在多个任务上取平均值。

4.2 zero-shot

在没有支持集进行微调的zero-shot设置下，将Metalic的性能与ProteinGym提供的基线模型预测结果进行比较。

从表1中可以看到，Metalic在zero-shot设置下取得了最佳性能，优于所有其他基线模型。由于没有进行微调的数据，相对于在方法中采用的蛋白质语言模型ESM2-8M，本文的方法在zero-shot设置中的强大性能可以归因于元学习。此外，本文方法以一个未标记的查询集和该查询集中的蛋白质嵌入为条件，这使得元学习成为一种上下文内无监督的适应形式。

few-shot（微调的结果）

表2展示了不同模型在大小为N(S)= 0、16和128的支持集的Spearman相关性。在不同支持集大小下，Metalic均展现出强大的性能，尤其是在n=0和n=16设置下，且使用的参数数量比其他模型少18倍。需要注意的是，ESM2-8M和ProteinNPT是在few-shot中表现最差的方法。这一结果表明Metalic的有效性不是来自ESM2-8M嵌入，也不是来自ProteinNPT架构，而是来自元学习本身。

此外，还训练了Metalic-AuxIF，引入辅助输入（如ESM-IF1的预测，它包含来自反向折叠的嵌入，总结了蛋白质结构）进一步提升了Metalic的性能。因为Metalic-AuxIF使用的ESM2-8M和ESM-IF1这两种蛋白质语言模型在zero-shot设置中表现最差（表1），ESM2-8M在few-shot设置中也很弱。表明Metalic-AuxIF的有效性完全来自元学习，模型能够有效地结合多个弱预测器的特征，形成一个强大的预测模型。

多突变体

在本节中，评估Metalic在蛋白质有多突变的任务中的作用。结果如表3a和图3b所示。虽然在对具有多个突变的蛋白质（多突变蛋白）的评估中，Metalic未能实现SOTA结果，但可以看到Metalic在多突变设置中是有竞争力的。作者假设这是由于有限的多突变训练数据，并在表4a和图4b中探索了这一假设。证明随着元训练任务的增加，性能有所提高，即使在添加与测试数据显著不同的单个突变任务时，这种趋势也是正确的。这为Metalic未来在多突变背景下的发展提供了一条道路。

消融实验

在单突变体任务上的few-shot上评估方法的消融，以展示元学习、偏好损失函数、微调以及轴向注意力模块的益处。

5 分析

在zero-shot设置下对Metalic的上下文学习能力进行了分析。通过展示轴向注意力层中蛋白质之间的注意力图，分析了模型在零样本设置下如何利用上下文信息进行学习和预测。即使在没有支持集数据的情况下，模型也能从查询集中单独进行无监督的上下文学习，使得模型能够在零样本设置下进行有效的预测和适应。

总结

本文展示了在少样本情况下的标准蛋白质适应度预测基准的最新结果。作者提出了Metalic，它利用了上下文中的元学习和后续的微调，并且证明了元学习的能力，它可以利用来自其他蛋白质适应性预测任务的额外数据，同时通过将微调推迟到测试时间来保持计算上的可处理性。在文中展示了上下文元学习为进一步的微调提供了一个有用的初始化，并且可以利用测试任务数据进行微调和上下文学习。此外，Metalic还演示了单独从查询集（zero-shot）学习的能力，执行无监督的上下文学习。