对全球健康药物发现研究所,北京,中国论文Sequence-based deep learning antibody design for in Silico antibody affinity maturation的整理。
0. 写在前面的问题
在读了4遍之后的不懂的问题,寻找有缘人解答:
1. 在结果比较时,对|ddG|采取的间隔是0,0.5,1,但是我在查阅相关论文后,发现绝大部分是以ddG<-1为稳定结合,ddG>1为不稳定结合。您文章的分段评估标准是什么?
2. 文章有提到“将相互作用接触(ICs)和非相互作用表面(NIS)纳入建模,因为抗体和抗原之间的结合强度依赖于形成的复合物的完全构象”,ICs是指的Contacts-only图么?NIS指的是Full-seq和Antibody-only图么?
3. 文章说用到从32种抗原中随机选取5种抗原,并将其相关的抗体-抗原复合物定义为测试集(即遗漏5种),其余28种抗原及相关复合物作为训练集。但是28+5并不等于32……
1. 动机
在过去的几十年里,随着测序技术的发展,已知的蛋白质序列数量呈指数级增长,但由于对实验的高度依赖,相应的晶体结构数量有限。为了检验序列数据引导在硅抗体成熟中的潜力,提出了仅利用基于复杂序列信息的深度学习技术的亲和预测模型。
2.贡献
1.引入成对预测策略(pairwise prediction strategy)
2.采用氨基酸级而非原子级建模,大大减少了训练和预测过程的时间开销,同时由于模型简单,对标注的训练数据集具有更好的容忍度。
3. 模型与算法
说在前面的成对预测策略的创新点:
感觉是在binding affinity change prediction的基础上给予一个评级排序指标:
每一对由两个复合物组成,目标抗原相同,但变异不同。如果第一个配合物的亲和力高于第二个配合物(即第一个配合物具有更高的亲和力),则标记为1,否则标记为0。
具体公式是:
3.1模型
Fig.1是原模型,是基于GNN改进,其基本原理很简单:每个聚合算子提取/描述输入图G的不同方面,通过组合不同的聚合算子,可以减轻信息传播损失,从而允许下游任务向深层传播更有效的特性。参考论文:Enhance Information Propagation for Graph Neural Network by Heterogeneous Aggregations。
Fig.1 Hag-Net模型图
图3.2 是文中的举例,以仅使用接触表示的成对分类模型
Fig.2 成对分类模型
3.2 模型与算法
文章采用模型是基于2种研究:
基线研究:结合亲和力变化预测
成对研究:结合亲和力成对等级预测
文章 对算法:进行了五倍交叉验证和非分布交叉验证,以评估模型的能力和可扩展性;
对数据集 : 测试集:随机选取5种抗原及其相关复合物
训练集:剩下28种抗原及其相关复合物
比较参数:自由能的变化,AUC
3.2.1 基线研究:结合亲和力变化预测
目的:不同的野生型和相关突变被广泛定义为改善或减弱的结合剂
探索了抗体-抗原复合物的图表示与三种不同的表示策略。A) Full-seq模型:简单地将抗体和抗原序列作为两个分离的图序列。 B) 仅接触模型:利用界面上的剩余物(距离<5埃)生成复杂物的紧凑表示。 3) 仅抗体模型:仅抗体模型旨在解决抗体在不同抗原之间的混杂结合能力。 评估:基于Hag-Net的网络结构是否捕获了抗体自然结合能力。 |
3.2.2 成对研究:结合亲和力成对等级预测
目的:找到同一治疗性先导的结合亲和性方面的有利突变变体
本质:期望通过两两研究来预测突变变体上抗原特异性结合强度的适当等级
注意:由于成对研究没有考虑不同治疗先导(即野生型)之间的亲和性,其结果不适用于与基线研究进行比较。因为有序对生成的内在设计,ddG子集也不适用于成对研究。所以比较结果分开展示性能。
4. 实验与结果
4.1 基线研究:结合亲和力变化预测
对于ddG有话说,以下哪个是可以参考的:
资料1:
|ddG| <0.5 低置信度
|ddG| >0.5 中置信度
|ddG| >1 高置信度
资料2:
ddG<-1,结合力提升,稳定
-1<ddG<1,结合力无显著变化
ddG >1 ,结合力下降,不稳定
参考论文:
1. AB-Bind: Antibody binding mutational database for computational affinity Predictions
2. Flex ddG: Rosetta ensemble-based estimation of changes in protein-protein binding anity
upon mutation
表2显示了使用Pearson相关系数度量的回归性能。Full-seq和contacts-only 在五倍验证中产生令人满意的回归性能。ddG值预测对未见变异体的重要性较小,但仍可与传统电子方法中的最佳性能相媲美。
我们注意到,在五倍和非分布实验中,仅抗体模型的准确性都较低,因为它没有在建模中捕捉抗体-抗原的特异性。
4.2 成对研究:结合亲和力成对等级预测
三种图表示在五次研究中都取得了良好的结果,这表明基于Hag-Net的建模用于抗体成熟过程是可行的。具体来说,在AUC 0.70的非分布实验中,全seq建模显著优于其他两种方法,表明相互作用接触(ICs)和非相互作用表面(NIS)都有助于突变时治疗导联亲和力的变化。
此外,为了进一步评估Hag-Net作为抗体-抗原相互作用建模的骨干结构的适用性,将基于长短期记忆(LSTM)的建模作为一种替代方法,并从训练效率、预测准确性和泛化能力方面比较了两种策略。为了简化模型,只使用抗体表示。图为描述基于LSTM和基于Hag-Net的训练在两两研究交叉验证过程中五次之一的收敛曲线。
观察到Hag-Net在训练时收敛速度比LSTM快,预测精度更高(表现为LSTM在epoch 400, Hag-Net在epoch 150),训练性能更稳定一致。
4.3 深度学习基准研究
两种方法的预测精度,其中Hag-Net模型在五倍分析中具有较好的圈定效果,而在非分布任务中性能较差。与LSTM模型相比,Hag-Net实现了更高的准确率(AUC 0.95 vs 0.89),训练速度明显更快、更平滑(图5)。Hag-Net模型由于其结构不可避免地存在较多的参数,因此在训练数据有限的情况下容易出现过拟合问题,导致在非分布任务中泛化性能较差。
5. 写在最后的话
确实很菜,刚刚入门,很多知识都不太会,如果有好心人愿意解答交流,那一定很好看……