引言
蛋白与肽段的相互作用(PpIs)介导了大量的蛋白-蛋白相互作用,阐明蛋白-肽复合物的结构细节对于理解肽疗法和蛋白-肽识别基础的分子机制至关重要。但是,PpIs的高度动态性和瞬时性极大地阻碍了蛋白-肽复合物结构的实验表征,因此,多种蛋白-肽对接方法被开发出来以预测蛋白-肽复合物的结合模式,但对于这些对接程序的优点和局限性缺乏系统性评估。
简介
浙江大学侯廷军团队与中南大学曹东升团队联合构建了基准数据集PepSet,并提出用界面处配体的RMSD(IL_RMSD)来衡量预测蛋白-肽模型的质量,对3个蛋白-蛋白对接程序(ZDOCK, FRODOCK, HawkDock),3个小分子对接程序(GOLD, Surflex-Dock, AutoDock vina)以及8个蛋白-肽对接程序(GalaxyPepDock, MDockPep, HPEPDOCK, CABS-dock, pepATTRACT, DINC, AutoDock CrankPep, HADDOCK)共14个对接程序的性能进行了系统评估。
蛋白-肽复合物基准数据集PepSet
PepSet是从PepBDB中提取的,收集了肽长度在5-20个氨基酸的所有蛋白-肽复合物并根据序列同一性等标准最终得到185个PDB结构。根据结合结构中肽的构象与其理想伸展构象或螺旋构象之间骨架原子的RMSD,将PepSet分为以下三类:
根据该标准,基准数据集的所有复合物中,132个属于简单,28个属于适中,25个属于困难级别。为了对接方便,使用Python库的PeptideBulider手动生成了肽的3个理想初始构象。受体蛋白中的所有非标准氨基酸都被修饰为标准氨基酸。该基准数据集可从http://cadd.zju.edu.cn/pepset下载得到。图1显示了数据集中肽的分布情况。
图1. PepSet中复合物按肽长度和难度的分布图.