ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home
本文主要来自本课的讲义。
Comparative Modeling 就是第一节提到的同源建模Homology Modeling,指利用序列的相似性去推测蛋白质结构。
回放:
同源建模Homology Modeling:
- SWISS-MODEL
- 执行:
- 先在数据库中搜索(i.e. BLAST)
- 找到至少一个有3d结构的蛋白质作为模板
- 将查询序列与模板比对,构建模型
- energy minimization
- 评估模型,如果不好的花继续做,直到选出最好的
步骤
- Fold assignment & template selection
- 三种蛋白比较方法
- 将目标序列与数据库中所有序列单独比一遍:BLAST FASTA
- 使用多条序列进行比较,提升灵敏度(尤其序列相似性低于25%时有用):PSI-BLAST
- Threading or 3d模板比对方法(尤其比对不上序列时有用)
- 模板选择的要求:较高的序列相似度、蛋白质家族、模板结构的质量、溶剂可及性、ph、配体等
- 如果蛋白的关系比较远,模板可能不够可靠
- 三种蛋白比较方法
- Target-template alignment
- 比对可以用CLUSTAL
- 比对twilight zone(序列和结构的相似度都较低的区域)很难
- 某些复杂的情况下,可能需要多种结构和多条序列
- Model building
-
三种构建方法
-
modeling by assembly of rigid bodies
经过比对得到一些刚性结构,组合
-
by segment matching or coordinate reconstruction
从目标序列得到一些原子位置作为参考,然后识别和组装一些满足参考位置的、短的原子结构,最后形成模型
-
by satisfaction of spatial restraints
根据目标序列产生一些结构上的要求,然后调整比对到的序列
-
-
可用的工具:COMPOSER, CONGEN, CPH models, DRAGON, ICM, SWISS-MOD等
-
Loop Modeling
- loops常常决定了一个蛋白结构的功能特性,LM也可以看作一个小型蛋白折叠问题。可用的方法:Ab initio methods; db search; both.
-
Sidechain Modeling
- 需要使用整体相似的结构,并且考虑能量限制
-
三种模型构造的准确率只能预测50%的 x 1 x_1 x1角,或者35%的 x 1 x_1 x1和 x 2 x_2 x2角
-
如果模板序列没有跟目标序列对应的一些区域(比如插入或者loops),那模型就很难构建,尤其是插入的长度大于9的时候
-
一些成功比对的模型片段,如果模板局部有些不同(比如小于3Å),那这个区域可能有错误
-
- Model evaluation
- 典型的错误:
- errors in side-chain packing
- distortions and shift in correctly aligned regions
- errors in regions without a template
- errors due to misalignments
- incorrect template
- 评估标准
- 折叠是否正确:与最接近的模板的序列相似度、基于能量的z-score、关键功能性或结构性残基在目标序列中是否保守
- 目标序列和模板序列的相似度:大于30%
- 环境:比如有的蛋白跟钙结合
- 立体化学的好坏:比如bond长度和角度,主链和支链旋转角度等
- 一些空间特性的分布:比如packing,疏水核的行程,残基和原子的溶剂可及性等
- 可用的软件:ANOLEA, AQUA, PROVE等
- 典型的错误:
- 应用
- Low accuracy
- 小于30%的序列相似度,小于50%的的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
- 用于确认或拒绝两个关系远的蛋白之间的匹配
- Middle accuracy
- 30%~50%序列相似度。85%的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
- 用于精进模型
- High accuracy
- 大于50%的序列相似度。这些序列一般可以跟低分辨率的x光结构一致,或者跟中分辨率的NMR(核磁共振)结构一致
- 用于将小配体或者整个蛋白对到给定蛋白上
- Low accuracy