NeurIPS2024 | 使用具有先验信息的流匹配进行通用蛋白质口袋生成

今天给大家分享一篇中国科学技术大学刘淇团队发表在NeurIPS2024上的一篇论文,题目为“Generalized Protein Pocket Generation with Prior-Informed Flow Matching”。在这项工作中,作者提出了一种用于蛋白质口袋生成的蛋白质-配体相互作用先验信息流匹配模型——PocketFlow。该方法通过定义蛋白质-配体复合物中不同数据模态的条件流(骨架框架、侧链扭转和残基/相互作用类型),选择流匹配模型作为生成框架,明确学习了包括氢键、盐桥、疏水相互作用和π-π堆积在内的主要蛋白质-配体相互作用类型;另外在采样过程中,利用结合亲和力和相互作用几何拓扑进行指导,生成具有高亲和力和有效性的蛋白质口袋。

引言

蛋白质是生物体的基本组成部分,通常与配体(例如小分子、核酸和肽)相互作用以执行其功能。最近,计算方法在设计与配体结合的功能性蛋白质方面发挥了关键作用。设计配体结合蛋白的一个重要步骤是设计蛋白质口袋,然而配体-蛋白质相互作用的复杂性、蛋白质侧链的可变性以及序列-结构关系对口袋设计提出了巨大的挑战。

传统的口袋设计方法主要集中在物理建模或模板匹配,但所涉及的物理能量计算或子结构枚举可能非常耗时;现有的基于深度学习的方法则往往忽略了基本的领域知识,例如蛋白质-配体相互作用和控制它们的几何约束,尽管它们可以有效地生成许多候选物,但需要进一步筛选/优化才能获得有效和高亲和力的口袋。此外,大多数方法仅限于小分子配体的口袋设计,而忽略了其他重要的配体类型,如核酸和肽。

为应对上述挑战,作者设计了先验引导的蛋白质口袋生成模型——PocketFlow。

方法

PocketFlow 是一种用于口袋设计的相互作用先验流匹配模型。在这部分中,首先进行符号和问题表述,然后对蛋白质-配体复合物中的不同组分定义 PocketFlow 进行说明,最后描述先验信息引导的训练和采样方法。

在这里插入图片描述

符号和问题表述

符号

如上图(a)所示,作者将蛋白质-配体复合物建模为由蛋白质 和配体 组成的 (以小分子为例)。蛋白 由一系列残基(氨基酸)组成,残基类型表示为 。蛋白质口袋 定义为在阈值 (例如 3.5 Å)下最接近配体原子的残基子集。在残基中,骨架结构(由 Cα、N、C、O 组成)由 Cα 坐标 和框架方向矩阵 进行参数化。侧链以最大 4 个扭转角 进行参数化。给定这些关键参数,可以通过理想的框架坐标和侧链键长/角度得出完整的原子蛋白结构。每个残基的蛋白质-配体相互作用类型表示为 (氢键、盐桥、疏水、π-π 堆叠、无相互作用)。带有 残基的口袋可以表示为 。所有类型的配体则使用广义原子级表示。

问题表述

PocketFlow以配体(可以是小分子、核酸、多肽等)和蛋白骨架(除口袋区外,蛋白质的其它部分,即) 条件下协同设计蛋白口袋的残基类型和3D结构。同时预测了配体结构。形式上,PocketFlow 旨在学习一个条件生成模型 。

PocketFlow on SE(3)

每个残基都可以通过 空间内的刚性变换 进行参数化。因此,具有 残基的主链可以用属于 的一组变换 来描述,并构成一个乘积空间。以下推论侧重于单个框架,但可以推广到整个蛋白质骨架。Cα 坐标 根据以下相邻支架残基的坐标,通过线性插值和外推进行初始化。选择 的先验分布作为 的均匀分布。根据以前的工作, 和 的条件流分别定义为 和 ,它们是 和 中的测地线路径。指数映射 可以使用 Rodrigues 公式计算,对数映射 同样很容易使用其 Lie 代数 计算。 上 PocketFlow 的 loss 函数是以下两种 loss 的总和:

其中作者还考虑了 中的 配体原子坐标,为此使用配体质量中心的高斯分布作为先验分布。

PocketFlow on Torus

每个残基的侧链构象可以表示为最大四个扭转角 。在有 残基的口袋中,侧链扭转角形成一个超环面 ,即商空间 ,其等价关系为: 。先验分布被选为 上的均匀分布。作者认为扭转角是相互独立的,并使用插值路径为:,其中 。扭转角的损失定义为:

在这里插入图片描述

PocketFlow on Residue Types and Interaction Types

每个残基都被分配一个具有 20 个维度的概率向量:。先验分布被设置为均匀分布,条件流被定义为 和 之间的欧几里得插值(表示残基类型的one-hot向量)。 是一个概率向量,因为它对所有类型的求和等于 1。作者利用交叉熵损失 来计算残基类型损失:

它测量真实概率与推断的 之间的差异。

作者使用蛋白质-配体相互作用分析器(PLIP)分析每个残基的结合结构来检测和注释每个残基的蛋白质-配体相互作用,考虑了 4 种主要相互作用,包括盐桥、π-π 堆叠、氢键和疏水相互作用,如果一个残基具有多个相互作用,则选择排名最高的相互作用。与残基类型类似,交互作用被建模为类别数据: 。除了 4 种交互类型外,还考虑了 unknown/none 类型。与公式(4)类似使用交叉熵损失:

先验引导的口袋采样

为了提高生成的蛋白质口袋的结合亲和力和结构有效性,作者提出了一种先验知识引导采样方案,使用整体结合亲和力分类器和相互作用几何指导采样。为了鼓励生成的蛋白质-配体复合物满足特定条件 ,作者应用贝叶斯规则:

其中 是无条件向量场 , 是将生成的复合物约束在特定条件 中的指导项。

亲和力引导

为了产生与目标配体具有更高结合亲和力的蛋白质口袋,作者训练了一个单独的轻量级亲和力预测器作为指导。具体来说,如果训练集中数据点的亲和力高于数据集的平均分数,则注释为 1,否则为 0。由于中间结构有噪声,作者从模型输出中获取 t = 1 处的预期结构,即 ,并将其输入到预测器中。然后得到分类器引导的速度场 :

其中, 是缩放因子来控制改变强度。 是亲和力预测器, 是结合亲和力的二进制标签。

相互作用几何引导

作者考虑了 PocketFlow 中的 4 种主要非共价相互作用类型,包括盐桥、π-π 叠、氢键和疏水相互作用。局部几何结构需要满足一系列距离/角度约束才能形成强相互作用。例如,对于氢键,供体原子和受体原子之间的距离需要小于 4.1 Å 且大于 2 Å,以减少空间冲突。以下不等式是 中残基的必要条件:

其中 和 是距离约束; 表示具有预测氢键的残基集中的第 k 个残基。 和 分别表示残基和配体中的候选原子坐标。距离引导可以表示为:其中 , 是控制引导强度的常数系数。除了距离约束外,氢键还需要满足受体/供体角度约束,例如,受体/配体角度需要大于◦。角度引导表示如下:其中 , 计算受体/供体角度。 是引导系数。

采样

使用初始化的数据,采样过程是使用欧拉求解器对从 t = 0 到 t = 1 的 从 t = 0 到 t = 1 进行积分。、、 和 在默认设置中设置为 1。为了应用该指南,作者使用 ,即 加上引导项:

其中 是时间步长; 表示不同变量的向量场的子分量。 表示将向量归一化为概率向量,使总和为 1, 表示通过 来正则化扭转角。

结果

小分子结合口袋设计

下表显示了在 CrossDocked 和 Binding MOAD 数据集上用于小分子结合口袋设计的不同方法的结果。可以观察到,PocketFlow 的性能优于基线模型,在 AAR、scRMSD 和 Vina 分数上具有明显的差距,这表明 PocketFlow 设计具有高有效性和亲和力的口袋的强大能力。与 RFDiffusionAA 相比,AAR 、 scRMSD 和 Vina 评分的平均改进分别为 3.3% 、 0.05 和 1.29 。

其它配体结合口袋设计

作者在下表中探讨了 CrossDocked 和 Binding MOAD 组合的预训练 PocketFlow 是否可以推广到肽和 RNA 结合口袋设计。肽和 RNA 配体表示为分子(原子和共价键),以适应预训练模型。观察到 PocketFlow 实现了与最先进的基线 RFDiffusionAA 相当的性能,并且在先前的指导下显着增强了其通用性。作者的假设是,PocketFlow 学到的蛋白质-配体相互作用和基本物理定律普遍适用于各种生物分子领域。通过将物理和化学先验显式地整合到生成模型中,PocketFlow 不仅符合这些普遍原则,而且还获得了可推广性的显着优势。

相互作用分析

作者采用 PLIP 和 posecheck 来检测生成的口袋中的蛋白质-配体相互作用。在下表中,作者显示了空间冲突、氢键供体、受体和疏水相互作用(无重新对接)的平均数量。观察到 PocketFlow 可以生成冲突更少、交互更有利的口袋。例如,RFDiffusionAA 和 PocketFlow 的平均空间冲突分别为 3.58 和 1.21。RFDiffusionAA 和 PocketFlow 的平均氢键数分别为 3.76 和 4.12。这些改进可归因于模型的亲和力/几何指导及其增强的口袋/配体灵活性建模,这两者都促进了有利蛋白质-配体相互作用的形成,同时最大限度地减少了冲突。某些相互作用类型(例如 PocketFlow 中的 π-π 堆叠)比例略小,这可能是由于数据集中这些相互作用的频率较低。

Case Study

下图显示了为小分子、肽和 RNA 生成的口袋的示例。PocketFlow 可回收大多数残基类型并改变几个关键残基以实现更高的结合亲和力。口袋的整体结构,包括侧链,通常保持良好。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值