一、导读
在Rosetta中评估一个模型的好坏,最直观的方法就是使用Rosetta的打分系统进行评估,也就是常说的能量函数。顾明思议,我们通过一些与能量直接相关的打分项对蛋白质的结构坐标进行打分的过程。
读者可自行凭借直觉评估,上图中绿色和粉红色的两个蛋白质预测的结构哪个更接近于真实的情况?哪个模型更加地可靠呢?
如果是比较有经验的人士,会认为绿色的模型更接近于真实的蛋白结构,原因是蛋白质往往依靠疏水相互作用驱使折叠成能量最低的状态,而粉红色的右下角处的α螺旋与周围的结合紧密程度较差,蛋白质存在空腔。如果我们使用Rosetta能量函数去打分,那么绿色模型的能量也显著低于粉红色的模型。也就是说Rosetta的能量函数与我们直觉的判断结果一致。那么有趣的问题来了,Rosetta能量函数为何可以较为准确地评估模型的好坏?
二、Rosetta能量项类型与分类
Rosetta能量函数由一系列可衡量的几何统计或经典物理相互作用能量经过加权后得到的函数形式。在给定原子坐标的条件下,评估原子之间的相互作用能量的大小。在之前版本的Rosetta中,能量的单位是REU(Rosetta Energy Unit),而最新版本的full-atom打分函数(ref2015))经过矫正,目前单位为kcals/mol。
从相互作用类型来分,Rosetta的打分项通常分为3类:
One Body:通常这类打分项只和单个氨基酸构象有关,比如骨架的二面角,侧链的rotamer构象等
Two Body:这类打分项与两个氨基酸有关,比如范德华力相互作用,静电相互作用
Whole Body:从整体几何性质或其他的指标考虑蛋白质的能量,如蛋白质的回旋半径,二级结构组成等可统计的量
从打分项的拟合方法上来区分,可分为物理势能项和统计势能项:
- 物理势能项通常是从物理上定义的分子相互作用经典公式去计算得到的值,比如范德华力的LJ势函数,库仑力的静电势函数。
- 统计势能项,一般是从蛋白质结构数据库中统计得到。这里有个比较重要的前提假设就是,在数据集中,出现概率越高的性质或则构象,其能量越低,出现罕见的则能量越高(玻尔兹曼分布),因此可以通过测定频率直接取对数近似能量的大小值。比如,我通过统计蛋白质主链上的phi, psi角的分布情况就可以统计得到Ramachandran图,其中点越富集说明这些主链构象的能量越低,在自然界中频繁被观测到。
简单来说在得到了多个打分项后,通常会在给定一些数据集条件下,通过拟合权重,就可以表现比较良好的打分函数,Rosetta能量函数拟合也是如此。举个例子,通过ab-inito的fragment组装得到了大量预测的蛋白质结构模型,通过尝试调整和组合每一项的打分权重,试图将与晶体最接近的那个模型能量拟合为最低的能量状态。
三、Rosetta能量项具体的解释
该章节设计的计算公式较多,如果觉得比较难理解,就了解下大致有哪些项组成,分别是代表什么含义即可。
在Rosetta中,氨基酸的模型有两种,一种是粗粒化模型,一种是全原子模型。
在Centroid模型下,氨基酸的侧链被一个有一定半径大小的粗粒化球所替代,