蛋白质结构预测---蛋白质残基的基础知识(二)
接下来我会用一条PDBID为1F88的蛋白质为例子,来解释什么叫蛋白质接触矩阵。
一、PDB数据库
Protein Data Bank(以下简称,PDB,https://www1.rcsb.org/)是当今全世界最具公信力的蛋白质数据库之一,每一条蛋白质都有唯一标识,称为PDBID(类似每个人都有自己的身份证号,唯一标识),比如PDBID为1F88的蛋白质在PDB中如下:
二、蛋白质的1级结构—序列
蛋白质的1级结构指的是其序列。在PDB中可以下到蛋白质的序列文件,如1F88的序列文件rcsb_pdb_1F88.fasta如下:
第一行记录了该蛋白的信息
第二行开始记录了该条蛋白质的序列,由一个个氨基酸构成。以这个1F88为例,序列中包含了348个氨基酸,说明1F88由348个氨基酸构成,所以1F88的长度为348。
我再贴一下氨基酸的缩写表,上图中的每一个字母,对应着下面的其中一个氨基酸。
三、蛋白质的3级结构—空间结构
2级结构我不关心,这里不做阐述。蛋白质的3级结构即空间结构。空间结构中包含了接触信息。那么蛋白质的3级结构如何获得?表示?怎么解读呢?一部部来。
3.1 蛋白质3级结构是什么?
3级结构就是空间结构。空间中每一个氨基酸集团由若干个原子构成。每一个原子都会有自己的唯一确定的三维坐标由(x,y,z)表示。
3.2 蛋白质3级结构如何表示?
以1F88蛋白质为例,1F88的3级结构用文件1F88.pdb来描述。该文件可以在PDB中下载到如下:
1F88.pdb文件打开后,文件的前半部分有大量的序列信息,我们不关心,我们只关心他的3维结构信息,从第一行为 ATOM开头的行开始,就是记录了坐标信息如下:
红框中表示MET(在一级序列中,简称M)氨基酸由编号1~9个原子构成,第三列为每一个原子的名称(共9个,分别为N原子、CA原子、C原子、O原子、CB原子、CG原子、SD原子、CE原子、N原子)
蓝框中的三列分别对应了三维坐标中的x,y,z。如CA原子的三维坐标为(44.718,-5.054,-26.911)
3.3 蛋白质3级结构信息如何解读?
在知道了每个原子的三维坐标后,我们可以在坐标系中,把每一个原子都标记出来,这样就得到了蛋白质的三维结构的空间图,如1F88序列经过PDB文件的坐标解析后,用Pymol软件打开可以看到他的结构如下:
四、小结
本节介绍了一些蛋白质三维结构的基本概念,弄清楚三维结构的概念后,接下来要介绍接触的概念。
Ending~