ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home
本文主要来自本课的讲义。
基因突变的来源
- Germline mutation(胚系突变)
- 来自父母的遗传,是生殖细胞携带的突变,可以遗传
- 在个体每个细胞中都存在
- De novo mutation(新发突变)
- 父母本身没有突变,一般来自精卵结合或受精卵发育过程中的自发突变
- 很常见,一般不会带来功能性的问题,但如果变异在重要基因,会有先天性疾病
- Somatic mutation(体细胞突变)
- 最常见
- 在个体生长发育中产生的突变,仅出现在身体的少数部位
- 不遗传
- 研究肿瘤时需要关注
人类基因突变的类型
- Chromosomal aneuploidy(染色体异倍体)
- Structural Variations(SVs)
- 大于50bp的序列发生诸如删除、插入、重复、倒位、异位等改变的
- Copy Number Variations(CNVs)
- 大于1kb的基因组大片段的拷贝数增加或减少
- Short insertion/deletions(indels)
- 长度一般在50bp以下
- Single Nucleotide Variations(SNVs)
- 在编码区的SNV可能造成以下结果:
- nonsense mutation:突变位置的密码子变成了终止密码子
- stop loss:原本的终止密码子因为突变丢失,可能产生新氨基酸
- missense:错义突变,指直接变成另一个氨基酸
- silent/synonymous:同义突变
- affect splicing:影响剪切
- 在编码区的SNV可能造成以下结果:
数据库
- dbSNP:Home - SNP - NCBI (nih.gov)
- 1000Genomes:http://www.1000genomes.org
- OMIM Online Mendelian Inheritance in Man: Home - OMIM
- HGMD Human Gene Mutation Database
- LSDBs Locus Specific Databases:大多基于LOVD(Leiden Open Variation Database)构建
SVM:支持向量机
- 监督学习,可以做分类和回归
- 为每个类选取一些边界上的点称为支持向量(离maximum margin hyperplane最近的点,而那个hyperplane是将两个类分得最开的那个面),构造线性判别函数以分类
- SVM可以通过kernel处理非线性分类问题,做法是将输入映射到高维空间
- 算法不写了,直接上框架完事儿。。
生物学问题:如何区分致病变异和中性变异?如何预测一个变异是否致病?
nonsense mutations经常被看作是致病的,但实际并非如此;错义突变里有很多致病的突变,所以研究也比较多,但是其他类型的变异研究不足。
一种假设:基于BLOSUM替换矩阵,如果变异的残基和野生型残基之间的替换分数是正数,那么变异是中性的;如果是负数,那么变异是致病的。(1999)
其他方法:
- Conservation-based:SIFT
- Sort Intolerant From Tolerant substitutions(2001)
- 前提:
- 重要的位置(如活性位点active sites)在不同物种的蛋白质家族中趋于保守,所以如果在很保守的位置突变了,就很有可能是有害的
- 很多位置在不同物种中有较高的diversity,那么这些位置的突变更可能是中性的
- 执行过程:
- 给定一个蛋白序列,先搜索相似序列:在SWISS-PROT中使用PSI-blast搜索,跑4个迭代
- 取上面结果中,比对区域一致性≥90%的序列
- 将上述结果对齐
- 对每个位置,计算所有替换出现的、归一化的概率
- 如果概率<0.05,认为是有害的,否则就是中性的
- Rule-based:PolyPhen
- 前提:
- 氨基酸变异可以影响蛋白的折叠、相互作用微店、溶解性和稳定性
- 蛋白质结构的变化会影响蛋白质功能,从而影响表现型
- 执行:基于多序列比对和蛋白质三级结构,使用一些规则判定
- 使用同源序列进行多序列比对
- 对变异位置,考虑结构特征:如是否在跨膜区域、信号肽区域等
- 获得3d结构或者用同源建模预测结构
- 计算与3d结构相关的一些特性
- 再运用规则进行判定
- 优点:当有3d结构时,预测准确率提升
- 缺点:如果没有3d结构,准确率差一点;规则是依赖于经验的
- 前提:
- Classifier-based:PolyPhen2, SAPRED
- PolyPhen2是PolyPhen的升级版,使用更多特征,基于朴素贝叶斯
- SAPRED支持两种预测:一是只基于序列信息的,二是基于序列和结构信息
蛋白质3D结构数据库:PDB
同源建模Homology Modeling
- SWISS-MODEL
- 执行:
- 先在数据库中搜索(i.e. BLAST)
- 找到至少一个有3d结构的蛋白质作为模板
- 将查询序列与模板比对,构建模型
- energy minimization
- 评估模型,如果不好的花继续做,直到选出最好的