4 表征治病突变的特征
Wu et al.系统地分析了20种不同遗传疾病的突变,并报道了每种可能突变的频率。从图4的数据可以看出,从发病情况来看,E→K、G→R、R→C、R→H、R→Q、R→W等特异性突变在疾病中较为普遍。
图 4与遗传疾病相关的一组蛋白质的突变偏好。矩阵的每个元素表示氨基酸突变的数量(从列到行)。最高频率的2.5%用红色表示,2.5-12.5%用橙色表示,剩余的非零单元格用黄色表示。
4.1 易感位点和中性位点的氨基酸突变频率
疾病易感位点和中性位点的氨基酸替代频率用下列公式计算:
其中,n(i→j)是替换的出现次数(i→j), n(i)是序列中剩余i的总数,19表示给定剩余(i)的可能突变数。
Vitkup等人对人类遗传疾病进行了详细分析,发现疾病突变与遗传密码的突变性相关(correlate with)。致癌突变分析显示,在TP53、PIK3CA、PTEN、EGFR和KRAS基因中,R→H和E→K占主导地位。R→H突变可诱导pH敏感性,而E→K突变可使带负电荷的残基变为带正电荷的残基,这可能会影响蛋白质的稳定性和功能。心血管疾病、克隆造血、卵巢衰老和COVID-19等其他疾病与DNMT3A、TET2、BRCA1、ABCA4和SARS Cov2病毒蛋白等各种蛋白质的突变有关。
Molnár等调查(investogate)了跨膜蛋白突变的影响,并报告称,在致病突变中,非极性到带电非极性到非极性取代的发生频率相同。正电荷氨基酸的取代在脂质双分子层的中心更为普遍,导致严重的结构和功能影响。Kulandaisamy等人对各种疾病的致病突变进行了类似的调查,并将突变与中性突变的偏好进行了比较。他们报道免疫系统疾病在膜蛋白内外区均富集C→Y和C→R突变,而在跨膜区则普遍存在R→Q和E→K突变。此外,Cys突变在心血管疾病和先天性代谢障碍相关的单通道蛋白中发生的频率更高,而多通道膜蛋白更可能发生精氨酸残基和非极性残基的替换。
4.2 致病和中性突变的首选motif
如表3所示,二肽和三肽基序是特定于个别癌症类型的。Anoosha等人利用特定的基序计算了氨基酸的偏好,并将其作为识别EGFR蛋白driver mutaton的重要特征。在肺癌中,Q*F、LG和TST基元在疾病易感位点中更受青睐,而KA、G*K和ISL在中性位点中占主导地位。另一方面,在胶质母细胞瘤的driver mutaton中,G*C、YP和GRH基元是首选,而在中性细胞中,IQ、SI和TVI是主导。