论文解读:PeSTo:用于精确预测蛋白质结合界面的无参数几何深度学习

PeSTo是一个无参数的几何Transformer,用于蛋白质结构分析,尤其在预测蛋白质与其他分子的结合界面方面表现出高精度和效率。模型直接作用于原子坐标,无需物理化学属性,能处理大量结构数据,包括MD模拟和折叠体预测,为揭示蛋白质相互作用的动态特性提供了新途径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Title:PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding interfaces

期刊:nature communication

分区:一区

影响因子:16.6

webserver:t Pesto

Github:GitHub - LBM-EPFL/PeSTo

摘要

        蛋白质是生命的重要分子组成部分,由于其特定的分子相互作用,负责大多数生物功能。然而,预测它们的绑定接口仍然是一个挑战。在这项研究中,我们提出了一个几何变换器,它直接作用于仅标有元素名称的原子坐标。由此产生的模型——蛋白质结构转换器,PeSTo——在预测蛋白质-蛋白质界面方面超越了当前的技术水平,并且还可以高度自信地预测和区分涉及核酸、脂质、离子和小分子的界面。它的低计算成本使得能够处理大量的结构数据,例如分子动力学系综,允许发现在静态实验解决的结构中保持不明显的界面。此外,由从头结构预测提供的不断增长的折叠体可以很容易地被分析,为揭示未探索的生物学提供了新的机会。

方法和数据集

数据集

数据集由来自蛋白质数据库的所有生物组件组成。使用簇之间最大30%的序列同一性来聚集亚基。亚基簇被分成大约70%的训练集(376216条链),15%的验证集(101700条链),和15%的测试集(97424条链)。我们通过评估验证集上的模型来选择最佳超参数。测试集由包含来自MaSIF-site基准数据集的53个亚单位或来自蛋白质-蛋白质对接基准5.038 (PPDB5)数据集的230个结构中的任何一个的簇组成。此外,我们提取了在ScanNet15的基准数据集和PeSTo的测试数据集中常见的子集417结构。除非特别说明,所有被选择用来评估模型预测质量的例子都属于测试集。

特征和标签

我们确定了PDB上30种最常见的原子元素。元素被用作onehot编码。输入矢量要素最初设置为零。距离矩阵和归一化位移向量矩阵被用作几何特征。氨基酸、核酸、离子、配体和脂质分别选自20、8、16、31和4种最常见的分子。用于帮助解决结构的非天然分子被忽略。界面被定义为5英寸以内的残基-残基接触。所有蛋白质-蛋白质界面以及蛋白质-核酸、蛋白质-离子、蛋白质-配体和蛋白质-脂质界面都被识别。每个子单元的接口细节作为交互类型矩阵(79×79)存储在数据集中。这使得能够在训练会话开始时选择特定接口作为标签,而不必重建整个数据集。界面靶标可以从79个可用分子的子集的任意组合中选择。

方法

蛋白质结构的Transformer架构

输入特征被嵌入到一个输入状态大小为S = 32的三层神经网络中,其中隐层大小为32。每个几何变换器由3层的5个神经网络组成,以执行补充算法1中描述的多头自关注(S = 32,Nkey = 3,Nhead = 2)。对于原子数量小于设置的最近邻(nn)数量的结构,额外的不存在的相互作用被发送到具有设

置为零的标量和矢量状态的汇聚节点。连续应用4组8个几何变换器,每组的最近邻数量递增(nn = 8、16、32和64)。如补充算法2中所述,通过在形成每个残基(S = 32,Nhead = 4)的原子上使用局部多头掩码,几何残基汇集模块将结构的原子级编码聚集成残基级描述。最后一个模块是一个多层感知器,具有3层S = 32的隐藏大小,解码所有残差的状态并计算预测,返回从0到1的置信度得分。

Transformer的蛋白质结构(PesTo)

许多成功的方法结合了transformers和几何深度学习,将结构表示为图形或点云,并整合了神经网络的不变性或等方差要求。主要突破来自蛋白质折叠领域,其中AlphaFold将注意力整合到Evoformer模块和结构模块中,RoseTTAFold20模型的第三个轨道使用阿瑟(3)转换器在折叠过程中细化原子坐标。此外,递归几何网络 (RGN2)利用Frenet-Serret公式来表示蛋白质的主链,几何矢量感知器 (GVP)使用线性运算来构成带有gating的矢量特征。已经开发了多种其他基于机器学习的蛋白质-蛋白质相互作用位点预测方法。

我们在这里介绍PeSTo,一个无参数的几何变换器,直接作用于蛋白质结构的原子。如图1所示以及在方法中详细描述的,该结构被表示为以原子位置为中心的点云,

### 解决PyCharm无法加载Conda虚拟环境的方法 #### 配置设置 为了使 PyCharm 能够成功识别并使用 Conda 创建的虚拟环境,需确保 Anaconda 的路径已正确添加至系统的环境变量中[^1]。这一步骤至关重要,因为只有当 Python 解释器及其关联工具被加入 PATH 后,IDE 才能顺利找到它们。 对于 Windows 用户而言,在安装 Anaconda 时,默认情况下会询问是否将它添加到系统路径里;如果当时选择了否,则现在应该手动完成此操作。具体做法是在“高级系统设置”的“环境变量”选项内编辑 `Path` 变量,追加 Anaconda 安装目录下的 Scripts 文件夹位置。 另外,建议每次新建项目前都通过命令行先激活目标 conda env: ```bash conda activate myenvname ``` 接着再启动 IDE 进入工作区,这样有助于减少兼容性方面的问题发生概率。 #### 常见错误及修复方法 ##### 错误一:未发现任何解释器 症状表现为打开 PyCharm 新建工程向导页面找不到由 Conda 构建出来的 interpreter 列表项。此时应前往 Preferences/Settings -> Project:...->Python Interpreter 下方点击齿轮图标选择 Add...按钮来指定自定义的位置。按照提示浏览定位到对应版本 python.exe 的绝对地址即可解决问题。 ##### 错误二:权限不足导致 DLL 加载失败 有时即使指定了正确的解释器路径,仍可能遇到由于缺乏适当的操作系统级许可而引发的功能缺失现象。特别是涉及到调用某些特定类型的动态链接库 (Dynamic Link Library, .dll) 时尤为明显。因此拥有管理员身份执行相关动作显得尤为重要——无论是从终端还是图形界面触发创建新 venv 流程均如此处理能够有效规避此类隐患。 ##### 错误三:网络连接异常引起依赖下载超时 部分开发者反馈过因网速慢或者其他因素造成 pip install 操作中途断开进而影响整个项目的初始化进度条卡住的情况。对此可尝试调整镜像源加速获取速度或是离线模式预先准备好所需资源包后再继续后续步骤。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值