ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home
本文主要来自本课的讲义。
生物学问题:如何区分致病变异和中性变异?如何预测一个变异是否致病?
方法:
- Conservation-based:SIFT
- Rule-based:PolyPhen
- Classifier-based:PolyPhen2, SAPRED
SAPRED:Single Amino acid Polymorphisms disease-association Predictor
是Classifier-based的一种方法。主要实现是先将一些特性纳入考虑,然后输入SVM。
SAP:Single Amino acid Polymorphism
SAPRED考虑的特性:
-
基础特性
- 残基的频率,保守分数
- 溶剂可及性
- 指蛋白质表面上的氨基酸残基是否容易接触到周围的水分子或其他溶剂。溶剂可及性通常通过计算特定氨基酸残基的表面积来确定。表面积越大,表示该残基越容易与溶剂发生相互作用,因此其溶剂可及性越高。
- Cβ密度
- 在蛋白质结构中Cβ原子的分布密度。在蛋白质的氨基酸中,Cβ表示α-氨基酸的侧链碳原子,这个碳原子与侧链其余部分相连。Cβ density通常是通过在蛋白质结构中对Cβ原子的位置进行统计和分析而得出的。这种分析有助于理解蛋白质的结构和稳定性,以及蛋白质中不同氨基酸残基的侧链构象。高Cβ密度可能表明在特定位置上存在较多的侧链碳原子,反映了侧链的相对紧密的排列。
- 二级结构
-
新特性(很可能致病的)
- Structural neighbor profile
- 是一个20维的向量:以SAP的 C α C_α Cα为中心,以指定半径R画一个球,对落入球中的残基计算数量,因为有20种残基,所以形成20维向量
- C-alpha指蛋白质中α-氨基酸的α碳原子。在蛋白质的氨基酸中,α碳原子是与氨基(NH₂)基团相连的碳原子,也是连接氨基酸的主链的一部分
- 不同的R预测效果是不一样的,根据经验选择13 Angstroms
- Nearby functional sites
- Swiss-Prot中标记的一些功能位点像是ACT_SITE、METAL是有生物意义的,如果这些地方出现SAP就可能破坏蛋白质的功能
- 假设出现在功能位点邻近区域的SAP,相比其他位置,更能影响蛋白质功能
- Disordered regions
- 指的是蛋白质结构中存在的一些区域,其原子排列没有明确的三维结构。这些区域通常不遵循规则的α-螺旋或β-折叠等二级结构元件,而是呈现出灵活、无规律或动态的性质。
- 这些无序区域在蛋白质的功能和调控中可能发挥重要作用,例如在蛋白质相互作用、信号传导和调控过程中的灵活性。
- 出现在无序区域的SAP有93%是致病的
- Hydrogen bonds change
- 氢键的变化很可能致病
- 跨膜区域的SAP
- 改变了β-aggregation特征的SAP
- 蛋白质的β-聚集(beta-aggregation)是指蛋白质分子中的β折叠结构相互结合形成聚集的过程。β-聚集是蛋白质聚集的一种形式,其中蛋白质的β-折叠区域相互堆积,形成具有特定结构的聚合物。β-聚集与一些神经退行性疾病,如阿尔茨海默病和帕金森病等,以及其他一些与蛋白质聚集有关的疾病有关。这些异常的聚集可能导致细胞功能受损,甚至导致细胞死亡,是一些神经系统疾病的病理特征之一。
- 来自HLA家族的SAP
- HLA代表人类Leukocyte Antigen(人类白细胞抗原)家族,也称为人类组织相容性抗原(Human Leukocyte Antigen)。HLA系统是一组蛋白质分子,主要存在于细胞表面,并在免疫系统中发挥关键作用。
- Structural neighbor profile