蛋白质性质和结构分析

最新推荐文章于 2022-12-31 10:35:54 发布

Angelia_zhu

最新推荐文章于 2022-12-31 10:35:54 发布

阅读量1.1w

点赞数 3

文章标签：蛋白质性质和结构分析蛋白质的理化特性的分析工具

原文链接

第七章蛋白质性质和结构分析

传统的生物学认为，蛋白质的序列决定了它的三维结构，也就决定了它的功能。由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构，以及用生化方法研究蛋白质的功能效率不高，无法适应蛋白质序列数量飞速增长的需要，因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能，经过多年努力取得了一定的成果。

7.1分析蛋白质的一级结构

蛋白质序列一级结构分析包括了对理化性质和序列模式的分析。蛋白质理化性质的分析通常包括：蛋白质的分子量、等电点(pI)、氨基酸组成、疏水性和亲水性分析等。目前已经开发了众多的蛋白质序列理化性质计算工具，且大多提供网络服务或允许自由下载安装。除了下表中列出的由ExPASy整理的蛋白质序列理化性质计算的工具外，ANTHEPROT、DNAMAN、BioEdit等也是较好的理化性质计算工具。理化性质对于进一步确定蛋白质的亚细胞定位、功能等非常有用，比如利用疏水残基与跨膜螺旋间的关系可以预测蛋白质序列是否跨膜，利用氨基酸组成成份可以预测蛋白质序列的亚细胞定位等。

7.1.1 ProtParam

ProtParam是计算输入序列的等电点(pI)、分子量(Mw)、氨基酸组成、消光系数、半衰期等理化性质的工具。对pI的确定基于早期研究中将蛋白质从由中性到酸性变性条件下迁移过程中所获得的pK值，对于碱性蛋白质所得到的pI值可能不准确。分子量的计算是把序列中每个氨基酸的同位素平均分子量加在一起，再加上一个水分子的分子量。用户可以把序列整理为FASTA格式，或提供SwissProt标识。若用户提供了序列，该工具会自动计算全序列的pI和分子量；若用户提供的是SwissProt标识，程序会显示该条目的描述和物种记录，此时计算将在片段上进行，而不是针对整个序列。

7.1.2 ProtScale

可以计算给出蛋白质序列的氨基酸疏水区和亲水区，用户可以把序列整理为FASTA格式，或提供SwissProt标识，需选择合适的amino acid scale。

7.1.3 REP

可以分析指定蛋白质序列中的重复序列模块，用户可以把序列整理为FASTA格式，或提供SwissProt标识。已有的可供查询的模块包括：Ankyrin, Armadillo, HAT, HEAT, HEAT_AAA, HEAT_ADB, HEAT_IMB, Kelch, Leucin Rich Repeats, PFTA, PFTB, RCC1, TPR, WD40等。

7.2 分析蛋白质的二级结构

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α＋β蛋白和α/β蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据，用过人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来，获得“一致序列”。总的来说，二级结构预测仍是未能完全解决的问题，一般对于α螺旋预测精度较好，对β折叠差些，而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

7.2.1 nnPredict

用神经网络方法预测二级结构，蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白，输出结果包括“H”(螺旋)、“E”(折叠)和“-”(转角)。这个方法对全α蛋白能达到79%的准确率。

7.2.2 SOPMA

位于法国里昂的CNRS（Centre National de la Recherche Scientifique）使用独特的方法进行蛋白质二级结构预测。它不是用一种，而是5种相互独立的方法进行预测，并将结果汇集整理成一个“一致预测结果”。这5种方法包括：Garnier-Gibrat-Robson（GOR）方法（Garnier等，1996）、Levin同源预测方法（Levin等，1986）、双重预测方法（Deléage和Roux，1987）、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法（Geourjon和Déleage，1995）。简单的说，SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库，库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。

7.2.3 Paircoil

Paircoil将输入序列与数据库中coiled-coils比较产生相似性分值。通过比较这个分值与球蛋白，卷曲螺旋蛋白的分值的分布，可以计算提交序列将会采取的卷曲螺旋构象的概率分值。

7.3 分析蛋白质的三级结构

蛋白质三维结构预测时最复杂和最困难的预测技术。研究发现，序列差异较大的蛋白质序列也可能折叠成类似的三维构象，自然界里的蛋白质结构骨架的多样性远少于蛋白质序列的多样性。由于蛋白质的折叠过程仍然不十分明了，从理论上解决蛋白质折叠的问题还有待进一步的科学发展，但也有了一些有一定作用的三维结构预测方法。最常见的是“同源模建”和“Threading”方法。前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴，再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。后者将序列“穿”入已知的各种蛋白质的折叠子骨架内，计算出未知结构序列折叠成各种已知折叠子的可能性，由此为预测序列分配最合适的折叠子结构。除了“Threading”方法之外，用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族，实际应用中发现这个方法的效果也不错。

在谈及这种或那种预测技术之前要预先说明的是，无论用哪种方法，这些结果都是预测。不同的方法，采用了不同的算法，可能产生相同或不同的结果。但有一点很重要：弄清楚某种方法的原理，而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适，而对另一个则完全不对。虽然如此，存在一种强大合作的潜力：正确应用这些预测技术，参照以主要的生化数据，就能提供有关蛋白质结构与功能的有价值信息。

7.4 分析膜蛋白质

膜蛋白可分为膜附着蛋白和膜镶嵌蛋白两大类，膜蛋白的跨膜区一般形成a-螺旋，膜附着蛋白通常由膜镶嵌蛋白剪切形成。

7.4.1 SOSUI

东京农业科技大学(Tokyo University of Agriculture and Technology)提供的膜蛋白分类和二级结构预测在线工具，可分析蛋白质跨膜区。预测结果分为两类：membrane protein （显示transmembrane helix）和soluble protein（非膜蛋白）。

7.4.2 DGPI

Prediction of GPI-anchor and cleavage sites，预测GPI的切点与接点位置，判断是否是膜附着蛋白。

7.5 分析蛋白质的翻译后修饰

蛋白质序列的翻译后修饰分析包括信号肽分析、亚细胞定位、糖基化修饰等。这些性质多半可直接由分析其序列而获得，并且这些性质大多与蛋白质的结构和功能相关，比如羧基端含有KDEL序列特征的蛋白质将被引向内质网，从而通过确定其亚细胞预测其功能。又如，亚细胞定位与功能相关，因为蛋白质必须在一定的细胞位置与一定的蛋白质相互作用才能完成特定的功能。蛋白质如果没有定位到正确的细胞位置还可能引起比如cancer和Alzheimer等疾病。另外，细菌的extracellular蛋白可以沿着类似的default pathway进入到真核生物细胞中。更进一步，通过与某些真核生物蛋白形成复合体进入特定的亚细胞位置，从而激发或抑制某些特定的细胞功能，甚至直接导致细胞死亡。这对于疾病治疗和预防，如治疗癌症，以及寻找疾病疫苗或生物制剂药物，如构造细菌武器及其治疗疫苗等具有重要意义。再如，蛋白质的磷酸化和去磷酸化几乎调节着生命活动的所有过程，包括细胞的增殖、发育和分化，神经活动，肌肉收缩，新陈代谢，肿瘤发生等。尤其在细胞应答外界刺激时，蛋白质磷酸化是目前所知道的最主要的信号传递方式。如在中枢神经系统中，几乎所有的兴奋性神经递质信号受体调控的方式都是磷酸化与去磷酸化。

7.5.1 SignalIP

SignalP可以对革兰氏阳性菌，革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析。预测采用了隐马尔可夫和人工神经网络技术的融合。其训练数据是从SwisProt第29版中挑选来的，分为真核生物，革兰氏阳性菌，革兰氏阴性菌三组。

7.5.2 NetOGlyc和NetNGlyc

分别分析O-连接糖链和N-连接糖链的连接位点，判断待分析蛋白是否可能发生糖基化。

7.6 分析蛋白质的亚细胞定位

蛋白质必须在一定的亚细胞器上才能正确行使其功能。同时也只有在相同或相近的亚细胞位置上蛋白质间才会有相互作用。亚细胞位置异常的蛋白质通常还会引起如癌症、老年痴呆症等疾病。亚细胞定位的预测目前有同源传递、基于序列motifs识别的方法、ab initio方法、蛋白质-蛋白质相互作用方法等。这里对PSORTB的预测原理和方法作简单介绍。

PSORTB 1.0 for bacteria预测5类亚细胞位置：cytoplasm, the inner membrane, the periplasm, the outer membrane, the extracellular space(针对革兰氏阴性菌)。采用的训练数据集是从SWISS-PROT 40.29中收集的注释了亚细胞位置的革兰氏阴性菌序列。工具的使用方法见网页http://www.psort.org/。

7.7分析化学因子作用蛋白质的位点

PeptideCutter：分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。