这篇文章介绍了一种名为ProteinMPNN的基于深度学习的蛋白质序列设计方法,其在虚拟和实验测试中表现出色。该方法能够将不同位置的氨基酸序列耦合到单链或多链中,因此可应用于各种蛋白质设计挑战。在对天然蛋白质骨架进行测试时,ProteinMPNN的序列恢复率为52.4%,而Rosetta仅为32.9%。
通过在训练过程中引入噪声,可以提高蛋白质结构模型的序列恢复率,并且生成的序列可以更可靠地编码其结构。作者利用X-ray crystallography, cryoEM 和functional studies证实了ProteinMPNN的广泛适用性和高准确性。该方法成功地设计了以前由Rosetta或AlphaFold设计失败的蛋白质单体、环状同源多聚体、四面体纳米颗粒和目标结合蛋白。
X-ray crystallography和cryoEM是在验证ProteinMPNN设计出的蛋白吗
——对的
X射线晶体学(X-ray crystallography):这是一种常用的方法,通过将蛋白质晶体置于X射线束中,并根据衍射图案来确定蛋白质的原子结构。这种技术已经被广泛应用于解析生物大分子的结构,包括蛋白质和核酸。
冷冻电镜(cryo-electron microscopy,cryoEM):这是一种高分辨率成像技术,可以用来观察生物大分子的结构,包括蛋白质、蛋白质复合物和细胞器等。在冷冻电镜中,样品被快速冷冻以避免伪形成,并且通过电子显微镜进行成像。
目录
编辑模型输入:protein backbone features
前置知识
蛋白质的主链通常被称为骨架(backbone),它由一系列连接在一起的氨基酸残基组成。每个氨基酸残基的骨架部分包含了四个原子:N端氮原子(N)、α碳原子(Cα)、羰基碳原子(C)和羧基氧原子(O)。
一个氨基和一个羧基~我们把氨基(含氮)端叫做N端,羧基(含碳)端称为C端~人为定义编码氨基酸的序号从N端开始编号
从N端到C端的顺序进行恢复:单链分子(比如蛋白质或DNA)上的某种特定过程,该过程按照分子的 N 端(氨基端)到 C 端(羧基端)的顺序进行恢复。
简介
Rosetta基于物理的方法将序列设计视为能量优化问题
本文用到了MPNN with 3 encoder and 3 decoder layers and 128 hidden dimensions
模型输入:protein backbone features
(1)distances be tween Cα-Cα atoms (2)relative Cα-Cα-Cα frame orientations and rotations (3)and backbone dihedral angles
那么这三个是什么呢?
什么是distances between Cα-Cα atoms
"Cα-Cα atoms" 是指蛋白质分子中相邻氨基酸残基的 α 碳原子。在蛋白质的主链中,每个氨基酸残基都包含一个 α 碳原子,而且这些 α 碳原子之间的距离被称为 "Cα-Cα 距离"。这种距离可以用来描述蛋白质分子的空间结构和构象。通常情况下,较小的 Cα-Cα 距离表示相邻氨基酸残基在蛋白质结构中更加紧密地相互靠近。
什么是relative Cα-Cα-Cα frame orientations and rotations
相对Cα-Cα-Cα框架的方向和旋转是指相邻三个氨基酸残基的Cα-Cα-Cα框架在空间中的相对取向和旋转。在蛋白质的主链中,相邻的氨基酸残基的α碳原子构成一个Cα-Cα-Cα框架。这种框架的方向和旋转描述了相邻氨基酸残基之间的空间排布和相对取向。
什么是backbone dihedral angles
"Backbone dihedral angles" 指的是在蛋白质的主链中每个氨基酸残基的骨架部分所具有的两个共面键之间的二面角(或二面二面角),分别称为φ和ψ角。这两个角度描述了相邻氨基酸残基之间的空间构型。φ角度测量了氨基酸残基的氮原子与其α碳原子之间的二面角,而ψ角度测量了其α碳原子与其羰基碳原子之间的二面角。
这些二面角对于描述蛋白质的构象和结构非常重要,因为它们直接影响蛋白质主链的折叠和排布。通过分析这些角度,可以揭示蛋白质的不同构象和结构状态,从而有助于理解其功能和性质。
模型架构——MPNN
这是一种图神经网络,MPNN在图中的节点(V)和边(E)之间进行消息传递的概念。它们定义了消息传递函数,使节点能够迭代地与它们的邻居交换信息。
经过实验,发现实验4的效果最好
(1)加入了distances between N, Cα, C, O and a virtual Cβ placed based on the other backbone atoms
虚拟Cβ是在蛋白质氨基酸序列中,对于一些氨基酸而言,它并不真实存在的一个原子。通常,Cβ是指氨基酸侧链中的一个碳原子,但在一些情况下,比如glycine (甘氨酸),它没有一个侧链,因此也就没有Cβ原子。在这种情况下,为了方便计算和模拟,研究人员会人为地引入一个虚拟的Cβ原子,通常是通过一种标准化的方法,例如将它放置在N、Cα和C之间的平均位置。虚拟Cβ的引入可以使得针对整个蛋白质的结构预测和计算更加方便和准确。
(2)加入了edge updates(当然node也会 update)
(3)解码过程随机
论文详解
对于论文的具体讲解,可以看这篇文章ProteinMPNN使用与介绍 - 知乎 (zhihu.com)
名词解释
这里再提供几个
什么是Å
Ångström,通常用于表示原子间的距离
什么是"monomers" 和 "homo-oligomers"
Monomers(单体):单体是指可以独立存在的单个分子或基本单位。在生物学中,单体通常是指单个氨基酸、单糖分子或单个核苷酸等。在化学中,单体可以是构成聚合物的单个分子单元,如乙烯单体是聚乙烯聚合物的单个重复单元。
Homo-oligomers(同源寡聚体):同源寡聚体是由多个相同的单体单元通过共价键连接在一起形成的复合物。这些单体单元可以是相同的氨基酸、糖分子或其他化学物质。同源寡聚体通常由蛋白质、多糖或其他生物大分子组成。
"monomer" 意指单体,指的是能够通过聚合反应形成聚合物的小分子化合物。在蛋白质领域,通常指的是构成蛋白质的氨基酸单体。
"homomers" 指的是由相同种类的单体组成的聚合物。在蛋白质领域,这通常指的是由相同种类的蛋白质单体组成的复合物。
"heteromers" 指的是由不同种类的单体组成的聚合物。在蛋白质领域,这可能指的是由不同种类的蛋白质单体组装而成的复合物。
pLDDT是一种用于评估蛋白质结构预测质量的指标,特别是在蛋白质折叠的任务中。它是指平均预测的局部距离差分得分(per-residue average local distance difference test),是在预测蛋白质结构的过程中使用的一种常见指标。
简单来说,pLDDT评估了预测的蛋白质结构中每个残基的位置与实际结构之间的距离差异。得分范围通常是0到100,其中100表示预测与实际结构完全一致,较低的分数表示预测与实际结构之间存在较大的差异。