Accurate structure prediction of biomolecular interactions with AlphaFold 3
前言
论文地址:Accurate structure prediction of biomolecular interactions with AlphaFold 3
时隔3年,DeepMind再次重磅推出AlphaFold3。
1 快速了解AlphaFold3
Google DeepMind和Isomorphic Labs团队在2024年5月8日发表在《Nature》上的最新论文“Accurate structure prediction of biomolecular interactions with AlphaFold 3”介绍了最新的AlphaFold 3模型。这一新模型采用了大幅更新的基于扩散的架构,能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。
1.1 主要亮点
- 基于扩散的架构:
- AlphaFold 3引入了一个基于扩散的架构,使其在预测生物分子复合物结构时具备更高的准确性和灵活性。
- 多种生物分子相互作用的预测:
- 该模型不仅可以预测蛋白质-蛋白质相互作用,还扩展到蛋白质-核酸、蛋白质-小分子、蛋白质-离子等多种生物分子相互作用。
- 精度提升:
- 在蛋白质-配体相互作用方面,AlphaFold 3比现有的最先进对接工具更为准确。
在蛋白质-核酸相互作用方面,它比专门的核酸特异性预测工具更精确。
在抗体-抗原预测方面,AlphaFold 3的准确性显著高于AlphaFold-Multimer v2.3。
- 在蛋白质-配体相互作用方面,AlphaFold 3比现有的最先进对接工具更为准确。
1.2 重要性
深势科技在2023年推出的分子领域的通用框架Uni-mol打开了分子通用框架的纪元。而2024年的AlphaFold3更是全面超越Uni-mol实现多领域的SOTA。
- 统一的深度学习框架:
- 这项研究表明,可以在单一的深度学习框架内实现对生物分子空间的高准确性建模。这一突破不仅能推动基础研究,还能在药物设计、合成生物学等应用领域带来重大影响。
2 网络架构
2.1 Alphafold2的网络架构
2.2 Alphafold3的网络架构
2.3 网络架构改进
明显3与2不同的地方,就是原先2中的Evcformer变成了Pairformer,Structure module变成了Diffusion module。
2.3.1 Pairformer Module
2.3.1.1 AlphaFold 2的Evoformer
2.3.1.2 AlphaFold 3的Pairformer
Pairformer 取代了 AlphaFold 2 中的 Evoformer 模块,专注于对表示和单个表示的处理。
- 对表示(Pair Representation):这是蛋白质或其他生物分子之间相互作用的信息表示,捕捉到分子间的距离、角度和其他几何关系。针对于对表示(Pair Representation)的处理并没有太多的变化,仍然是通过学习周围的碱基对来更新当前碱基对。
- 单个表示(Single Representation):这是单个分子的内部信息表示,包含了该分子的序列和结构特性。
- 简化MSA处理:与AlphaFold 2相比,AF3减少了多序列比对(MSA)的处理复杂度,只使用简化的MSA嵌入块,而不是大量复杂的MSA注意力机制。这减少了计算成本并提高了训练效率。
这些修改既是为了满足广泛的化学实体而不过度特殊处理,也是基于对AlphaFold 2在不同修改下性能的观察。在主干中,MSA处理被大幅减少,采用了更小更简单的MSA嵌入块。与AlphaFold 2的原始Evoformer相比,块的数量减少到四个,MSA表示的处理采用了廉价的成对加权平均,后续处理步骤仅使用了成对表示。"Pairformer"取代了AlphaFold 2的"Evoformer"成为主要的处理块。它仅操作成对表示和单一表示;MSA表示未保留,所有信息都通过成对表示传递。成对处理和块的数量基本与AlphaFold 2相同。得到的成对和单一表示与输入表示一起传递给新的扩散模块,取代了AlphaFold 2的结构模块。
2.3.2 Diffusion Module
2.3.2.1 扩散模型回顾
扩散模型分为正向扩散和反向扩散两个过程
扩散模型(Diffusion Model) 是一种生成模型,利用一种逐步加噪和去噪的过程来生成数据。其核心思想是通过在训练过程中对输入数据添加噪声,然后训练模型逐步去除噪声,恢复原始数据。这种方法可以应用于生成图像、音频,甚至是生物分子结构。
扩散模型分为正向扩散和反向扩散两个过程,以图片作为例子,正向扩散指的是往一张清晰的图片里加入人为制定的噪声,这张图片会逐渐模糊直到最后形成一个完全符合高斯分布的噪声图片。而反向扩散则是指的是利用深度学习模型,去对加噪声的过程进行模仿并逆过来推倒,将模糊的图片逐渐还原成清晰的图片。
在介绍完了扩散模型的基本概念之后,让我们再把眼光重新聚焦回AlphaFold 3中。
2.3.2.2 AlphaFold 2的Structure module
蛋白质进行旋转/平移是不影响蛋白质结构的,但是如果用3D坐标的话,绝对位置会发生变化,所以这里使用的是相对位置。蛋白质可以想成主干+支链:主干点我们记为x,那么链上面任意一个点/主干的后一个点可以看成y=Rx+t(仿射变换)。根据3*3的矩阵R做旋转,根据x做平移。
2.3.2.3 AlphaFold 3的Diffusion Module
扩散模型是 AlphaFold 3 的核心创新之一。其基本思想是通过一个噪声过程将原子坐标扰动,然后通过模型逆向去噪来预测真实结构。这种方法有助于模型在不同尺度上学习结构信息。在AlphaFold 3中,扩散模型用于预测生物分子的三维结构。具体来说,它在原子坐标上操作,通过在训练过程中对这些坐标添加噪声,然后训练模型逆向去除噪声来预测真实的原子位置。
- 噪声添加:在训练过程中,给原子坐标添加不同水平的高斯噪声。噪声水平越高,结构越混乱,模型需要学会从高噪声状态恢复到原子级的精确结构。
- 去噪网络:扩散模型使用一个神经网络来逆向处理噪声,即去噪。这个网络的输入是带噪声的原子坐标,输出是去噪后的坐标。通过多次迭代去噪,逐步恢复出原始的结构。
- 多尺度学习:模型在小噪声水平下学习局部的精细结构,在高噪声水平下学习全局的宏观结构。这种多尺度学习机制确保了模型能够捕捉到从原子细节到整体结构的各种信息。
2.3.2.3.1 扩散过程
扩散过程包括两个主要步骤:加噪过程(Forward Process) 和 去噪过程(Reverse Process)。
- 加噪过程
- 初始输入:将原始的生物分子原子坐标作为输入。这些坐标表示分子中 的各个原子的位置。
- 逐步加噪:在加噪阶段,逐步向原子坐标添加高斯噪声,使其逐渐变得混乱。这一步可以被描述为一个马尔可夫链,其中每一步都在上一步的基础上添加一些高斯噪声,生成带噪声的坐标序列。这可以通过以下公式实现:
- 完全加噪:通过多次迭代,最终将原始坐标变为完全随机的高斯噪声。这些带噪声的坐标序列将作为训练数据的一部分。
- 去噪过程
- 初始带噪坐标:从完全加噪的坐标xt开始,这些坐标非常接近纯随机噪声。
- 逐步去噪:通过训练神经网络,逐步去除噪声,恢复原始坐标。神经网络接收当前的带噪坐标和时间步 t,输出去噪后的坐标预测。具体公式如下:
- 损失函数:在训练过程中,模型通过最小化去噪过程中的预测误差来学习。常用的损失函数是均方误差(MSE),即模型预测的去噪坐标与实际的原始坐标之间的差距:
2.3.2.3.2 模型训练
在训练过程中,模型的目标是最小化去噪过程中的预测误差,使其能够准确地从高噪声状态恢复到原子级的精确结构。训练损失通常包括重构误差,即模型预测的去噪坐标与实际的原始坐标之间的差距。
2.3.2.3.3 多尺度学习
扩散模型的多尺度学习机制使得它能够在不同尺度上学习结构信息:
- 小噪声水平:在小噪声水平下,模型专注于学习局部的精细结构,例如原子之间的短程相互作用和几何形状。
- 大噪声水平:在大噪声水平下,模型学习全局的宏观结构,例如蛋白质的整体折叠和多分子复合物的相对位置。
通过在不同噪声水平下的训练,模型能够捕捉到从原子细节到整体结构的各种信息,增强其预测能力。
扩散模型被训练接收“加噪”的原子坐标然后预测真实坐标。这个任务要求网络在多种长度尺度上学习蛋白质结构,其中小噪声下的去噪任务强调了对局部立体化学的理解,而高噪声下的去噪任务则强调了系统的大尺度结构。在推断时,会采样随机噪声,然后通过递归去噪产生最终的结构。重要的是,这是一个生成式的训练过程,会生成一系列答案的分布。这意味着,对于每个答案,局部结构都将被明确定义,即使网络对位置不确定。因此,我们能够避免对残基进行基于扭转的参数化和结构上的违规损失,同时处理通用配体的全部复杂性。
3 训练方法
3.1 数据集准备
AF3 使用了大量的生物分子结构数据进行训练,这些数据包括蛋白质、核酸、小分子、离子以及各种修饰残基的相互作用。数据集的多样性确保了模型能够泛化到不同类型的生物分子相互作用上。
3.2 生成式扩散方法
生成式扩散方法 是AF3的一大亮点,通过扩散模型在不同噪声水平下的逐步训练,使模型能够在局部和全局结构上都表现出色。
- 逐步扩散:从高噪声到低噪声的逐步扩散过程,使得模型能够逐步学会从完全混乱的状态恢复到精确的原子坐标。
- 训练损失:模型的训练目标是最小化去噪过程中的预测误差,确保模型能够准确地从噪声中恢复出真实结构。
具体已在上文说过,这里不再赘述。
采用生成式扩散方法也带来了一些技术挑战,最大的问题是生成模型容易产生幻觉,即模型可能在无结构的区域中发明看似合理的结构。为了抵消这种效果,我们使用了一种新颖的交叉蒸馏方法,其中我们通过AlphaFold-Multimer v2预测的结构丰富了训练数据。在这些结构中,无结构区域通常由长的延伸环代替紧凑的结构,并在它们上进行训练可以使AlphaFold 3模仿这种行为。这种交叉蒸馏大大减少了AF3的幻觉行为。
TODO 没找到这个交叉蒸馏的具体细节,等找到再更新吧
3.3 可信度测量与模型评估
为了确保预测的可靠性,AF3 引入了可信度测量方法,通过在训练过程中模拟完整的结构预测,评估预测的准确性。用于预测最终结构中的原子级和成对级误差。在AlphaFold 2中,这是通过在训练期间回归结构模块输出中的误差来直接完成的。然而,这个过程对扩散训练不适用,因为扩散训练只训练了一个扩散步骤,而不是一个完整的结构生成。为了解决这个问题,我们开发了一种扩散的“回滚”程序,用于训练期间的完整结构预测生成。然后使用这个预测的结构对对称的真实链和配体进行排列,并计算性能指标来训练置信度头。置信度头使用成对表示来预测LDDT(pLDDT)和预测对齐误差(PAE)矩阵,就像AlphaFold 2中一样,以及距离误差矩阵(PDE),即与真实结构相比预测结构的距离矩阵中的误差。
- mini-rollout:在训练期间进行小规模的预测展开,评估模型在每个去噪步骤中的性能。这有助于捕捉到模型在不同阶段的表现,并进行优化。
- 误差评估:开发了预测原子级和成对误差的可信度测量方法,帮助模型在训练期间自我评估并进行调整。
4 模型评估与性能
AF3可以从输入的聚合物序列、残基修饰和配体SMILES中预测结构。图3中展示了一些示例,突显了该模型对多种生物学重要和治疗相关模态的泛化能力。选择这些示例时考虑了个体链和界面与训练集的相似性的新颖性。
AF3 在广泛的生物分子复合物上的性能进行了全面评估,包括蛋白-配体、蛋白-核酸、蛋白-蛋白相互作用等。评估结果显示,AF3 在这些特定相互作用类型上的表现明显优于传统工具或其他通用方法。
4.1 蛋白-配体相互作用
AF3 在预测蛋白质-配体相互作用时,比传统的对接工具(如Vina)表现更好。
研究人员评估了该系统在每种复合物类型的最新界面特定基准上的性能。对于蛋白质-配体界面的性能评估是在PoseBusters基准集上进行的,该集合由2021年或之后发布到PDB的428个蛋白质-配体结构组成。由于标准训练截止日期是在2021年,研究人员单独训练了一个带有较早训练集截止日期的AF3模型。
在PoseBusters集合上的准确度报告为蛋白质-配体对中口袋对齐配体RMSD小于2 Å的百分比。基准模型分为两类:
- 一类仅使用蛋白质序列和配体SMILES作为输入
- 另一类则额外泄露了已解析的蛋白质-配体测试结构的信息。
传统的对接方法使用后者的特权信息,尽管在实际使用情况下这些信息不可用。即便如此,AlphaFold 3在不使用任何结构输入的情况下也大大优于诸如Vina等经典对接工具(Fisher精确p=2.27 * 10-13),甚至在不使用任何结构输入的情况下也远远优于所有其他真正的盲对接工具,如RoseTTAFold All-Atom(p=4.45 * 10-25)。
预测的蛋白质链用蓝色表示,预测的配体用橙色表示,真实结构用灰色表示。
a, Human Notum结合抑制剂ARUK3004556(PDB ID 8BTI,配体RMSD:0.65 Å )。
b,假单胞菌sp.PDC86 Aapf结合 HEHEAA(PDB ID 7KZ9,配体RMSD:1.3Å )。
c,人半乳糖凝集素-3糖-识别结构域与化合物 22(PDB ID 7XFA,配体RMSD:0.44 Å )的复合物。
显示了三个示例,其中AlphaFold 3实现了准确预测,但对接工具Vina和Gold没有成功。PoseBusters分析是使用了2019年9月30日的AlphaFold 3训练截止日期,以确保模型未经过PoseBusters结构的训练。为了与RoseTTAFold All-Atom的结果进行比较,我们使用了PoseBusters版本1。版本2(从基准集中去除了晶体接触)的结果,包括质量指标,显示在扩展数据图4b-f和扩展数据表1中。我们使用多个种子以确保正确的立体化学并避免轻微的蛋白质-配体碰撞(而不是像扩散引导一样强制执行),但通常能够产生高质量的立体化学。另外,还训练了一个接收“口袋信息”的AlphaFold 3版本,这是一些最近深度学习工作所使用的。
可以看到,无论是给定全结构,还是只关注口袋信息,AF3的指标都远超于如今哪怕最先进的深度学习对接方法Diffdock,更是在全领域超越Diffdock。
4.2 蛋白-核酸相互作用
AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和RNA结构。由于RoseTTAFold2NA仅针对1000个残基以下的结构进行验证,研究人员仅使用最近的PDB评估集中1000个残基以下的结构进行比较。
AlphaFold 3能够预测具有数千个残基的蛋白质-核酸结构,图3a显示了其中的一个示例。请注意,研究人员没有直接与RoseTTAFold All-Atom进行比较,但基准表明,RoseTTAFold All-Atom在核酸预测方面与RoseTTAFold2NA相当或略低于其准确性。研究人员还评估了AF3在10个公开可用的CASP15 RNA目标上的表现:研究人员在自己和它们的预测的公共子集上的平均性能高于RoseTTAFold2NA和AIchemy_RNA(CASP15中的最佳基于AI的提交,也是最好的AI)。在各自的常见子集上,见扩展数据图5a以获取详细结果。研究人员没有达到最佳人类专家辅助的CASP15提交AIchemy_RNA241的性能水平。由于数据集大小有限,研究人员在这里不报告显著性检验统计数据。有关仅预测核酸(不包括蛋白质)的准确性的进一步分析,请参见扩展数据图5b。
这里我不熟,不是我工作的重点,我就直接翻译过来,欢迎各位指正。
4.3 共价修饰
AF3还可以准确预测共价修饰(键合配体、糖基化和修饰的蛋白质残基和核酸碱基)。这些修饰包括任何聚合物残基(蛋白质、RNA或DNA)。我们将准确性报告为成功预测的百分比(口袋RMSD < 2 Å)。我们对键合配体和糖基化数据集应用质量过滤器(与PoseBusters一样):我们仅包括具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit > 0.5,即具有中位数以上模型质量的X射线结构)。与PoseBusters集合一样,键合配体和糖基化数据集不是通过与训练数据集的同源性来筛选的。基于结合的聚合物链同源性的筛选(使用聚合物模板相似度 < 40)只产生了5个键合配体和7个糖基化的聚类。在这里,我们排除了多残基糖基,因为RCSB验证报告没有为它们提供ranking_model_fit值。在所有质量实验数据上,多残基糖基的成功预测百分比(口袋RMSD < 2 Å)为42.1%(N = 131聚类),略低于所有质量实验数据上单残基糖基的成功率46.1%(N = 167)。修改的残基数据集与我们的其他聚合物测试集类似进行了过滤:它仅包含具有与训练集低同源性的聚合物链中的修改残基。
这里我不熟,不是我工作的重点,我就直接翻译过来,欢迎各位指正。
5 模型局限性
研究人员注意到AlphaFold 3模型在立体化学、幻觉、动态性和对某些目标的准确性方面存在局限性。
立体化学方面,研究人员注意到两个主要的违规类别。首先,尽管模型接收了具有正确手性的参考结构作为输入特征,但模型的输出并不总是遵守手性规则。为了解决这个问题,在PoseBusters基准测试中,研究人员在模型预测的排名公式中包含了手性违规的惩罚项。尽管如此,研究人员仍然观察到基准测试中4.4%的手性违规率。第二类立体化学违规是模型偶尔会产生重叠(“碰撞”)的原子预测。有时这会表现为同构体中的极端违规,其中整个链被观察到重叠。在排名时对碰撞进行惩罚可以减少这种故障模式的发生,但无法完全消除。几乎所有剩余的碰撞都发生在蛋白质-核酸复合物中,这些复合物既有超过100个核苷酸又有超过2000个残基。
研究人员注意到从非生成式的AlphaFold 2模型转换为基于扩散的AlphaFold 3模型引入了在无序区域产生虚假结构顺序(幻觉)的挑战。虽然幻觉区域通常被标记为非常低的置信度,但它们可能缺乏AlphaFold 2在无序区域产生的独特的丝带状外观。为了在AF3中鼓励产生丝带状预测,我们使用了AlphaFold 2预测的蒸馏训练,并添加了一个排名项以鼓励产生更多的溶剂可及表面积。
蛋白质结构预测模型的一个关键局限性是它们通常预测的是PDB中所见的静态结构,而不是溶液中生物分子系统的动态行为。这个限制在AlphaFold 3中仍然存在,即使使用多个随机种子来进行扩散头或整个网络的训练,也无法产生解集的近似。
某些情况下,模拟的构象状态可能不正确或不全面,鉴于指定的配体和其他输入。例如,E3泛素连接酶在天然状态下采用开放构象,只有当结合配体时才观察到闭合状态,但是AF3专门预测了闭合状态,无论是在完整还是天然系统中。许多方法已经被开发出来,特别是围绕MSA重新采样,它们有助于从先前的AlphaFold模型中生成多样性,并且也可能有助于使用AF3进行多状态预测。
尽管AlphaFold 3在建模精度方面取得了巨大进步,但仍有许多目标的精确建模可能具有挑战性。为了获得最高的准确性,可能需要生成大量的预测并对其进行排名,这会增加额外的计算成本。研究人员观察到这种效应最明显的一类目标是抗体-抗原复合物,与其他近期的工作类似。图5a显示,对于AlphaFold 3,随着模型种子数量的增加,排名靠前的预测结果不断提高,甚至在1000个种子时仍然如此(使用蛋白质-蛋白质界面ipTM进行排名)。在其他类别的分子中,一般不会观察到使用多个种子时的这种大幅提高。对于AF3预测,每个模型种子只使用一个扩散样本而不是五个并不会显著改变结果,这表明运行更多的模型种子对于抗体评分的改进是必要的,而不仅仅是增加扩散样本。
6 结论
分子生物学的核心挑战是理解并最终调控生物系统中复杂的原子相互作用。AlphaFold 3模型朝着这个方向迈出了重要的一步,展示了在一个统一的框架中准确预测各种生物分子系统的结构是可能的。虽然在实现所有类型的相互作用的高度准确预测方面仍存在着重大挑战,但研究人员证明了可以构建一个深度学习系统,它对所有这些相互作用都表现出强大的覆盖和泛化能力。研究人员还证明了缺乏跨实体进化信息并不是阻碍在预测这些相互作用方面取得进展的重大障碍,而且抗体结果的显著改进表明AlphaFold衍生的方法能够在不依赖MSA的情况下对分子相互作用类别的化学和物理进行建模。最后,蛋白质-配体结构预测的大幅改进表明,在通用深度学习框架内,处理化学空间的广泛多样性是可能的,而无需人为地将蛋白质结构预测与配体对接分开。
自下而上地建模细胞组分是解开细胞内分子调控复杂性的关键一步,AlphaFold 3的性能表明,开发正确的深度学习框架可以大大减少获得这些任务上生物相关性能所需的数据量,并放大已经收集到的数据的影响。研究人员预计,结构建模将继续改进,不仅是因为深度学习的进步,还因为实验结构确定方法的持续方法学进步,比如冷冻电子显微镜和断层扫描的显著改进,将为这些模型的泛化能力提供丰富的新训练数据。实验和计算方法的并行发展将推动我们进入一个结构上明智的生物理解和治疗开发时代。