生物信息学导论-北大-变异的功能预测1

最新推荐文章于 2024-07-24 23:23:37 发布

陆沙

最新推荐文章于 2024-07-24 23:23:37 发布

阅读量1k

点赞数 27

分类专栏：生物信息学文章标签：生物生物信息

本文链接：https://blog.csdn.net/pxy7896/article/details/135649141

版权

生物信息学专栏收录该内容

45 篇文章 2 订阅

订阅专栏

本文介绍了基因突变的不同类型，包括遗传突变（如Germline和Denovo），体细胞突变（Somatic），以及染色体异常和结构变异。还讨论了数据库如dbSNP、1000Genomes和预测工具（如SIFT、PolyPhen和PolyPhen2）在区分致病和中性变异中的应用，重点提到基于结构和保守性分析的预测方法。

摘要由CSDN通过智能技术生成

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义。

基因突变的来源

Germline mutation（胚系突变）
- 来自父母的遗传，是生殖细胞携带的突变，可以遗传
- 在个体每个细胞中都存在
De novo mutation（新发突变）
- 父母本身没有突变，一般来自精卵结合或受精卵发育过程中的自发突变
- 很常见，一般不会带来功能性的问题，但如果变异在重要基因，会有先天性疾病
Somatic mutation（体细胞突变）
- 最常见
- 在个体生长发育中产生的突变，仅出现在身体的少数部位
- 不遗传
- 研究肿瘤时需要关注

人类基因突变的类型

Chromosomal aneuploidy（染色体异倍体）
Structural Variations（SVs）
- 大于50bp的序列发生诸如删除、插入、重复、倒位、异位等改变的
Copy Number Variations（CNVs）
- 大于1kb的基因组大片段的拷贝数增加或减少
Short insertion/deletions（indels）
- 长度一般在50bp以下
Single Nucleotide Variations（SNVs）
- 在编码区的SNV可能造成以下结果：
  - nonsense mutation：突变位置的密码子变成了终止密码子
  - stop loss：原本的终止密码子因为突变丢失，可能产生新氨基酸
  - missense：错义突变，指直接变成另一个氨基酸
  - silent/synonymous：同义突变
  - affect splicing：影响剪切

数据库

dbSNP：Home - SNP - NCBI (nih.gov)
1000Genomes：http://www.1000genomes.org
OMIM Online Mendelian Inheritance in Man： Home - OMIM
HGMD Human Gene Mutation Database
LSDBs Locus Specific Databases：大多基于LOVD（Leiden Open Variation Database）构建

SVM：支持向量机

监督学习，可以做分类和回归
为每个类选取一些边界上的点称为支持向量（离maximum margin hyperplane最近的点，而那个hyperplane是将两个类分得最开的那个面），构造线性判别函数以分类
SVM可以通过kernel处理非线性分类问题，做法是将输入映射到高维空间
算法不写了，直接上框架完事儿。。

生物学问题：如何区分致病变异和中性变异？如何预测一个变异是否致病？

nonsense mutations经常被看作是致病的，但实际并非如此；错义突变里有很多致病的突变，所以研究也比较多，但是其他类型的变异研究不足。

一种假设：基于BLOSUM替换矩阵，如果变异的残基和野生型残基之间的替换分数是正数，那么变异是中性的；如果是负数，那么变异是致病的。(1999)

其他方法：

Conservation-based：SIFT
- Sort Intolerant From Tolerant substitutions(2001)
- 前提：
  - 重要的位置（如活性位点active sites）在不同物种的蛋白质家族中趋于保守，所以如果在很保守的位置突变了，就很有可能是有害的
  - 很多位置在不同物种中有较高的diversity，那么这些位置的突变更可能是中性的
- 执行过程：
  - 给定一个蛋白序列，先搜索相似序列：在SWISS-PROT中使用PSI-blast搜索，跑4个迭代
  - 取上面结果中，比对区域一致性≥90%的序列
  - 将上述结果对齐
  - 对每个位置，计算所有替换出现的、归一化的概率
  - 如果概率<0.05，认为是有害的，否则就是中性的
Rule-based：PolyPhen
- 前提：
  - 氨基酸变异可以影响蛋白的折叠、相互作用微店、溶解性和稳定性
  - 蛋白质结构的变化会影响蛋白质功能，从而影响表现型
- 执行：基于多序列比对和蛋白质三级结构，使用一些规则判定
  - 使用同源序列进行多序列比对
  - 对变异位置，考虑结构特征：如是否在跨膜区域、信号肽区域等
  - 获得3d结构或者用同源建模预测结构
  - 计算与3d结构相关的一些特性
  - 再运用规则进行判定
- 优点：当有3d结构时，预测准确率提升
- 缺点：如果没有3d结构，准确率差一点；规则是依赖于经验的
Classifier-based：PolyPhen2, SAPRED
- PolyPhen2是PolyPhen的升级版，使用更多特征，基于朴素贝叶斯
- SAPRED支持两种预测：一是只基于序列信息的，二是基于序列和结构信息