生物信息学导论-北大-变异的功能预测3（Comparative Modeling）

陆沙

于 2024-01-19 16:34:51 发布

阅读量872

点赞数 24

分类专栏：生物信息学文章标签：生物生物信息

本文链接：https://blog.csdn.net/pxy7896/article/details/135701508

版权

生物信息学专栏收录该内容

43 篇文章 2 订阅

订阅专栏

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义。

Comparative Modeling 就是第一节提到的同源建模Homology Modeling，指利用序列的相似性去推测蛋白质结构。

回放：

同源建模Homology Modeling：

SWISS-MODEL
执行：
- 先在数据库中搜索（i.e. BLAST）
- 找到至少一个有3d结构的蛋白质作为模板
- 将查询序列与模板比对，构建模型
- energy minimization
- 评估模型，如果不好的花继续做，直到选出最好的

步骤

Fold assignment & template selection
- 三种蛋白比较方法
  - 将目标序列与数据库中所有序列单独比一遍：BLAST FASTA
  - 使用多条序列进行比较，提升灵敏度（尤其序列相似性低于25%时有用）：PSI-BLAST
  - Threading or 3d模板比对方法（尤其比对不上序列时有用）
- 模板选择的要求：较高的序列相似度、蛋白质家族、模板结构的质量、溶剂可及性、ph、配体等
- 如果蛋白的关系比较远，模板可能不够可靠
Target-template alignment
- 比对可以用CLUSTAL
- 比对twilight zone（序列和结构的相似度都较低的区域）很难
- 某些复杂的情况下，可能需要多种结构和多条序列
Model building
- 三种构建方法
  - modeling by assembly of rigid bodies
    
    经过比对得到一些刚性结构，组合
  - by segment matching or coordinate reconstruction
    
    从目标序列得到一些原子位置作为参考，然后识别和组装一些满足参考位置的、短的原子结构，最后形成模型
  - by satisfaction of spatial restraints
    
    根据目标序列产生一些结构上的要求，然后调整比对到的序列
- 可用的工具：COMPOSER, CONGEN, CPH models, DRAGON, ICM, SWISS-MOD等
- Loop Modeling
  - loops常常决定了一个蛋白结构的功能特性，LM也可以看作一个小型蛋白折叠问题。可用的方法：Ab initio methods; db search; both.
- Sidechain Modeling
  - 需要使用整体相似的结构，并且考虑能量限制
- 三种模型构造的准确率只能预测50%的 $x_1$ 角，或者35%的 $x_1$ 和 $x_2$ 角
- 如果模板序列没有跟目标序列对应的一些区域（比如插入或者loops），那模型就很难构建，尤其是插入的长度大于9的时候
- 一些成功比对的模型片段，如果模板局部有些不同（比如小于3Å），那这个区域可能有错误
Model evaluation
- 典型的错误：
  - errors in side-chain packing
  - distortions and shift in correctly aligned regions
  - errors in regions without a template
  - errors due to misalignments
  - incorrect template
- 评估标准
  - 折叠是否正确：与最接近的模板的序列相似度、基于能量的z-score、关键功能性或结构性残基在目标序列中是否保守
  - 目标序列和模板序列的相似度：大于30%
  - 环境：比如有的蛋白跟钙结合
  - 立体化学的好坏：比如bond长度和角度，主链和支链旋转角度等
  - 一些空间特性的分布：比如packing，疏水核的行程，残基和原子的溶剂可及性等
- 可用的软件：ANOLEA, AQUA, PROVE等
应用
- Low accuracy
  - 小于30%的序列相似度，小于50%的的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
  - 用于确认或拒绝两个关系远的蛋白之间的匹配
- Middle accuracy
  - 30%~50%序列相似度。85%的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
  - 用于精进模型
- High accuracy
  - 大于50%的序列相似度。这些序列一般可以跟低分辨率的x光结构一致，或者跟中分辨率的NMR（核磁共振）结构一致
  - 用于将小配体或者整个蛋白对到给定蛋白上