RGN2:基于语言模型和深度学习的单序列蛋白质结构预测

《Single-sequence protein structure prediction using a language model and deep learning》
基于语言模型和深度学习的单序列蛋白质结构预测 
Ratul Chowdhury, Nazim Bouatta
 

背景:

两种深度学习方法AlphaFold2和RoseTTAFold2达到了几乎与蛋白质结构测定的实验方法一样的精度。但这两种算法都消耗了大量的计算资源,并且由于它们依赖于多个序列作为输入,因此在预测“孤儿”蛋白质结构预测方面不太成功,所谓的“孤儿”蛋白质是指同源物很少或没有同源物的蛋白质。

目前存在三个问题:

(1)预测不能产生MSA的孤儿和快速进化的蛋白质

(2)对设计结构的快速探索

(3)了解多肽在溶液中自发折叠的规律。

 使用ML(Machine Learning)预测单个序列的结构仍然是一个挑战:AF2中对来自MSA的共进化信息的需求使得其对缺乏序列同源物的蛋白质的性能较低。

结论:提出端可微分递归几何网络2(RGN2)方法依赖于一种蛋白质语言算法(AminoBERT),从未排列的蛋白质中学习潜在的结构信息,链接的几何模块以平移和旋转不变的方式紧凑地几何表示C_{\alpha }骨架。

使用的计算时间比AF2和RoseTTAFold少106倍,且在预测孤儿蛋白质结构方面平均表现优于它们。

主要方法和结论:

端到端可区分的、基于ML的RGN,其从来源于MSA的位置特异性评分矩阵(PSSM)预测蛋白质结构。RGN 1 PSSM结构关系被参数化为相邻残基之间的扭转角,使得可以在3D空间中顺序定位蛋白质骨架(骨架几何结构包括每个氨基酸的N、C_{\alpha }和C′原子的排列)。尽管RGN1不依赖于用于产生MSA(多序列比对)的共进化信息,但对PSSM的要求需要多个同源序列可用。

RGN2:

RGN2将基于transformer-based蛋白质语言模型(AminoBERT,黄色)与RGN相结合,RGN使用Frenet-Serret框架生成蛋白质的backbone结构(绿色)。在初步构建侧链和氢键网络之后,随后使用AF2Rank(蓝色)对结构进行精调细化。

在蛋白质的背景下,AminoBERT旨在捕获隐含指定蛋白质结构的氨基酸串中的潜在信息。RGN 2还利用描述多肽几何形状的天然方式,所述多肽几何形状在作为整体的多肽水平上是旋转和翻译不变的。这涉及到使用Frenet-Serret公式在每个Cα碳嵌入一个参考框架;然后通过一系列变换容易地构建骨架。在本文中,我们描述了实施和培训的AminoBERT,使用Frenet-Serret公式在RGN 2和性能评估的天然和设计的蛋白质没有显着的序列同源物。

Frenet-Serret公式(弗莱纳公式(Frenet–Serret formulas)_CA727的博客-CSDN博客

GN2涉及与RGN1和其它基于ML的结构预测方法相关的两项主要创新:

第一:它使用氨基酸序列本身作为主要输入,而不是PSSM,从而可以从单个序列预测结构。在没有PSSM或MSA的情况下,使用称之为AminoBERT的蛋白质语言模型捕获关于蛋白质序列(整体)和3D结构之间关系的潜在信息。

第二:RGN2使用基于Frenet–Serret公式的更简单方法,而不是将蛋白质骨干的几何形状描述为扭转角序列;这些公式使用曲线本身的参考框架来描述沿曲线的运动。

生成AminoBERT语言模型:

为了生成AminoBERT语言模型,使用UniParc序列数据库获得约2.5亿个天然蛋白质序列训练了一个12层transformer。

为了增强对完整蛋白质序列中信息的捕获,作者引入了两个不是BERT或以前报告的蛋白质语言模型的训练目标:

第一:在每个序列中同时屏蔽2-8个相邻残基(类似于ProtTrans语言模型),使重建任务更加困难,并强调从全局而非局部环境中学习。

第二:"组块置换"用于交换相邻的蛋白质片段;区块排列保留了局部序列信息,但破环了全局一致性。

训练AminoBERT识别这些排列是鼓励transformer从整体蛋白质序列中发现信息的另一种方法。RGN2的AminoBERT模块以自我监督的方式独立于几何模型进行训练,无需微调。

C_{\alpha }架 

在RGN2中,使用一维曲线的Frenet-Serret公式的离散版本参数化backbone几何结构。在这种参数化中,每个残基都由其C_{\alpha }原子和以该原子为中心的定向参考系表示。局部剩余几何由一个旋转矩阵表示,该旋转矩阵将前一帧与当前帧相关联,即RGN2在每个剩余位置预测的几何对象。

与之前的RGN1使用的扭转角相比,这种旋转和平移不变的参数化有两个优点:

第一:它确保指定一个单一的生物物理参数,即序列C_{\alpha }C_{\alpha }距离约3.8 埃(对应于反式构象),只产生物理上可实现的局部几何。这克服了RGN1的局限性,RGN1在某些扭转角产生了化学上不真实的值。

第二:它将链扩展计算的计算成本降低了约10倍,而链扩展计算通常是RGN训练和推理时间的主要部分。

使用ProteinNet12数据集和仅由源自ASTRAL SCOPe数据集(版本1.75)的单个蛋白质结构域组成的较小数据集进行RGN2训练。因为我们观察到两者之间没有可检测到的差异,所以本文中的所有结果都来自较小的数据集,因为它需要更少的训练时间。

预测没有同源物的蛋白质结构

为了评估RGN2对没有已知序列同源物的孤儿蛋白质结构的预测程度,作者将其与目前最好的公开方法AF2和RF进行了比较。

除了使用UniRef30之外,还使用了其它两个互补数据库(PDB70和MGnify)来组成了一份包含77种蛋白质的列表,这些蛋白质具有以下特性:

(1)它们至少有20个残基;

(2)它们已是孤儿(即MSA 深度=1)同时跨越所有三个数据集;

(3)它们在蛋白质数据库(PDB)中的已有了结构。

作者使用所有方法预测孤儿蛋白质的结构(下图a),并使用GDT_TS(大致捕获正确预测的结构部分)和dRMSD评估实验确定结构的准确性

作者发现,44%和65%的案例中(下图b),RGN2在两个指标上均优于AF2和RF。在31%和20%的案例中,AF2和RF在两个指标上优于RGN2;其余案例均获得相同的结果。

 

a. 在77个缺乏已知同源物的孤儿蛋白质中,RGN2(紫色)、AF2(绿色)和RF(粉红色)绝对值性能指标 b. 使用dRMSD和GDT_TS作为指标,对77个孤儿蛋白质显示了RGN2和AF2/RF之间预测精度的差异。左上象限的点对应于ΔdRMSD为负、ΔGDT_TS为正的target,即RGN2在两个指标上都优于竞争方法,右下象限的点则相反。其他两个象限(白色)表示没有明确赢家的target,因为这两个指标不一致。20%的靶标接哦股通过核磁共振实验确定,并用深灰色标记表示,而其余80%的靶标是通过X射线结晶学或电子显微镜确定的。

比较孤儿蛋白的RGN 2和AF 2结构预测

a,堆叠条形图显示了孤儿蛋白质中二级结构元件的相对分数,按这些类别分解:RGN 2优于AF 2; AF 2优于RGN 2;没有明显的赢家。条高表示蛋白质长度。b-d,在螺旋结构域之间含有弯曲或氢键结合的转角的不同长度的α-螺旋靶标(6A 3A、6 F0 F和7AL 0)倾向于通过RGN 2比通过AF 2更好地预测。aa,氨基酸。

从头预测蛋白质的结构

与所有竞争方法相比,RGN2可以更好地预测新生蛋白质空间螺旋区域的序列-结构关系,但从单个序列预测beta-sheet 仍然是一个挑战

作者评估了RGN2在149个合成蛋白质测试集上的准确性,这些合成蛋白质最初是使用计算参数化能量函数(Rosetta和Amber)从头设计的。使用dRMSD和GDT_TS评估预测准确性。

作者发现,在47%和66%的案例中,RGN2在两个指标上分别优于AF2和RF。平均而言,RGN2在这些target上优于AF2和RF,dRMSD和GDT_TS的收益为12.4埃、17.1埃和1.80埃、2.33埃。

 a,RGN 2(紫色)、AF 2(绿色)和RF(粉红色)在149种从头设计的蛋白质中的绝对性能度量。B,使用dRMSD和GDT_TS作为度量,示出了这149种蛋白质的RGN 2和AF 2之间的预测准确度差异。左上象限中的点对应于具有负ΔdRMSD和正ΔGDT_TS的目标-即,其中RGN 2在两个指标上都优于竞争方法,并且对于右下象限,反之亦然。另外两个象限(白色)表示没有明确赢家的目标,因为两个指标不一致。34%的目标的结构是使用NMR实验确定的,并用深灰色标记表示,而剩余的66%的目标是使用X射线晶体学或电子显微镜确定的。c,通过实验方法(NMR和X射线晶体学/电子显微镜)分解显示了RGN 2和AF 2的绝对GDT_TS和dRMSD评分的头对头比较。对于上部紫色三角形中的蛋白质,RGN 2优于AF 2,而对于下部绿色三角形中的靶标,AF 2优于RGN 2。XRD,X射线晶体学。

对alpha的Contact预测精度略高

作者对修订后的124个从头蛋白质靶点集和作者设计的蛋白质集(表A)进行了RGN2和ESM-1b之间的contact预测比较分析,这些表格显示了top L/2、L/5和L/10的contact的百分比精度。

显示ESM-1b在含由大量beta contact中表现优于RGN2,但对于含有大量\alpha的contact中,RNN2略微领先。同时注意到,contac预测精度的提高并不一定意味着三级结构预测的改进。

 RGN的快速预测精度

凭借端到端可微分,RGN 2使用快速神经网络操作预测未细化的结构,并且不需要基于物理的构象采样来组装折叠链。因为它直接对单个序列进行操作,所以RGN 2还避免了昂贵的MSA计算。

结论:

RGN 2代表了使用ML从单个序列预测蛋白质结构的首次尝试之一。RGN 2通过融合蛋白质语言模型(AminoBERT)与基于Frenet-Serret公式的简单直观的Cα骨架几何参数化方法来实现孤儿蛋白质的结构设计。AminoBERT从蛋白质中学习这些信息而无需对齐。在RGN 2中使用Frenet-Serret公式解决了蛋白质表现出平移和旋转不变性的要求。使用MSA信息(当其可用时)的方法通常优于RGN 2。

未来系统要解决的当前RGN 2实现的一个限制是,递归几何网络的即时输出仅约束Cα原子之间的局部依赖性(曲率和扭转角),从而导致骨架几何结构的顺序重建。限制是RGN 2中的细化不是端到端实现的一部分;通过3D旋转和平移等变神经网络的改进将是更有效的,并且可能产生更好质量的结构。

1个思路:

引用:

对大量长蛋白质的快速预测将使酶学,治疗学和化学工程中的许多实际应用成为可能,包括设计新功能14 -16,提高热稳定性17,改变pH敏感性18和增加与有机溶剂的相容性19。有效和准确的结构预测在孤儿蛋白的情况下也是有价值的,其中许多被认为在分类学限制和谱系特异性适应中发挥作用。例如,0 SP24是小麦病原体禾谷镰刀菌的孤儿毒力因子,其通过调节保守信号转导激酶的蛋白酶体降解来控制宿主免疫20。它是在真菌、植物、昆虫和其他生物体21中发现的许多孤儿基因之一,其中MSA不可用。

端到端RGN1:

23. Ingraham, J., Riesselman, A., Sander, C. & Marks, D. Learning protein
structure with a differentiable simulator. in 7th International Conference on
Learning Representations. https://openreview.net/forum?id=Byg3y3C9Km
(2019).
24. Li, J. Universal transforming geometric network. Preprint at https://arxiv.org/
abs/1908.00723 (2019).
25. Kandathil, S. M., Greener, J. G., Lau, A. M. & Jones, D. T. Ultrafast end-to-end
protein structure prediction enables high-throughput exploration of
uncharacterised proteins. Proc. Natl Acad. Sci. USA 119, e2113348119 (2022).

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

seowhi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值