mmCIF 文件格式

mmCIF 文件格式

转载来自:https://www.jianshu.com/p/73453d80de9e

mmCIF数据文件

mmCIF数据文件和字典中使用的语法来自STAR(Self-defining Text Archive and Retrieval)语法。在其最简单的形式中,mmCIF文件看起来像一个成对的数据项名称和值的集合。例如,在下面这个为单元格常数赋值的例子中,对语法的解释是直接的。

# 
_cell.entry_id           4HHB 
_cell.length_a           63.150 
_cell.length_b           83.590 
_cell.length_c           53.800 
_cell.angle_alpha        90.00 
_cell.angle_beta         99.34 
_cell.angle_gamma        90.00 
_cell.Z_PDB              4 

mmCIF的数据项目名称是由前面的下划线字符来识别。下划线后面是一个文本字符串,在mmCIF中被解释为包含一个类别名称和一个关键词名称,用句号分开。名称中的关键字部分是该类别中数据项的唯一标识符。在上面的例子中,所有的数据项都属于CELL类别。上面的例子也说明了项目名称和项目值之间需要一对一的对应关系。数据类别和数据项的名称不区分大小写。

下一个例子说明了文本字符串如何在mmCIF中表达。短的文字串可以用单引号或双引号括起来。跨越多行的文本字符串用分号括起来,分号放置在该行的第一个字符位置。有两个特殊字符作为mmCIF项目值的占位符,由于某些原因不能明确分配。问号(?)用于标记一个项目值为缺失。句号(.)可用于识别该项目没有合适的值,或一个值被有意省略。

_entity_src_gen.entity_id                          1 
_entity_src_gen.pdbx_gene_src_gene                 'MT3707, MTCY07H7B.20, panC, Rv3602c' 
_entity_src_gen.pdbx_gene_src_scientific_name      'Mycobacterium tuberculosis' 
_entity_src_gen.pdbx_gene_src_ncbi_taxonomy_id     1773 
_entity_src_gen.pdbx_host_org_scientific_name      'Escherichia coli' 
_entity_src_gen.pdbx_host_org_ncbi_taxonomy_id     562 
_entity_src_gen.pdbx_host_org_vector_type          plasmid 
_entity_src_gen.pdbx_host_org_tissue               ? 
_entity_src_gen.pdbx_host_org_vector               ? 
_entity_src_gen.plasmid_name                       pET30a 

_struct_ref.id                         1 
_struct_ref.db_name                    UNP 
_struct_ref.db_code                    PANC_MYCTU 
_struct_ref.pdbx_db_accession          P0A5R0 
_struct_ref.entity_id                  1 
_struct_ref.biol_id                    . 
_struct_ref.pdbx_seq_one_letter_code   
;MTIPAFHPGELNVYSAPGDVADVSRALRLTGRRVMLVPTMGALHEGHLALVRAAKRVPGS 
VVVVSIFVNPMQFGAGEDLDAYPRTPDDDLAQLRAEGVEIAFTPTTAAMYPDGLRTTVQP 
GPLAAELEGGPRPTHFAGVLTVVLKLLQIVRPDRVFFGEKDYQQLVLIRQLVADFNLDVA 
VVGVPTVREADGLAMSSRNRYLDPAQRAAAVALSAALTAAAHAATAGAQAALDAARAVLD 
AAPGVAVDYLELRDIGLGPMPLNGSGRLLVAARLGTTRLLDNIAIEIGTFAGTDRPDGYR 
;

矢量和表格的数据可以用loop_指令在mmCIF中进行编码。要建立一个表格,与表格列相对应的数据项名称前面要有loop_指令,后面要有相应的数据行。下面的例子建立了一个作者姓名的表格。

# 
loop_
_citation_author.citation_id 
_citation_author.name 
_citation_author.ordinal 
primary 'Fermi, G.'     1  
primary 'Perutz, M.F.'  2  
primary 'Shaanan, B.'   3  
primary 'Fourme, R.'    4  
1       'Perutz, M.F.'  5  
1       'Hasnain, S.S.' 6  
1       'Duke, P.J.'    7  
1       'Sessler, J.L.' 8  
1       'Hahn, J.E.'    9  
2       'Fermi, G.'     10 
2       'Perutz, M.F.'  11 
3       'Perutz, M.F.'  12 
4       'Teneyck, L.F.' 13 
4       'Arnone, A.'    14 
5       'Fermi, G.'     15 
6       'Muirhead, H.'  16 
6       'Greer, J.'     17 
# 

在mmCIF中使用loop_指令有几个限制。首先,要求循环内的所有数据项都属于同一个mmCIF类别。其次,循环后的数据值的数量必须是数据项名称数量的精确倍数。最后,mmCIF禁止对loop_指令进行嵌套。

mmCIF使用数据块来组织相关信息和数据。一个数据块是一个数据文件或字典的逻辑分区,是用data_指令创建的。一个数据块可以通过在data_指令后附加一个文本字符串来命名,一个数据块可以由另一个data_指令或文件的结尾来终止。下面的例子显示了一个非常简单的例子,即一对缩写的数据块。

#
# --- Lines beginning with # are treated as comments 
#
data_X987A
_entry.id                              X987A

_exptl_crystal.id                  'Crystal A'
_exptl_crystal.colour              'pale yellow'
_exptl_crystal.density_diffrn      1.113
_exptl_crystal.density_Matthews    1.01 

_cell.entry_id                         X987A
_cell.length_a                         95.39
_cell.length_a_esd                      0.05
_cell.length_b                         48.80
_cell.length_b_esd                      0.12
_cell.length_c                         56.27
_cell.length_c_esd                      0.06

# Second data block
data_T100A

_entry.id                           T100A

_exptl_crystal.id                  'Crystal B'
_exptl_crystal.colour              'orange'
_exptl_crystal.density_diffrn      1.156
_exptl_crystal.density_Matthews    1.06

_cell.entry_id                         T100A
_cell.length_a                         68.39
_cell.length_a_esd                      0.05
_cell.length_b                         88.70
_cell.length_b_esd                      0.12
_cell.length_c                         76.27
_cell.length_c_esd                      0.06

上面的例子说明了如何使用数据块来分离与不同结构有关的类似信息。这种分离是必要的,因为mmCIF的语法禁止在同一数据块中的多个地方重复相同的类别。因此,将上述两个数据块的内容简单串联成一个数据块在语法上是不正确的。

合并上述例子中的数据块会引起一些与mmCIF数据模型和这些特定类别的结构相关的额外问题。在上面的例子中,通过使用loop_指令重组EXPTL_CRYSTAL类别,可以将该类别的信息合并为一个数据块。然而,某些mmCIF类别如CELLENTRY在数据块中可能只包含一个值,因此不能循环。这些类别中的数据项的单值属性是这两个类别中关键项定义的结果。CELL类别的关键项,_cell.entry_id,被定义为_entry.id的一个子定义。这个项目被定义为数据块的标识符,因此可以只承担一个值。

mmCIF字典中的定义被封装在命名的保存框中。一个保存框架以save_指令开始,以另一个save_指令结束。保存框的命名方式是在save_标记上附加一个文本字符串。在mmCIF字典中,保存框被用来封装项目和类别的定义。mmCIF字典由一个包含数千个保存框的数据块组成,每个保存框包含一个不同的定义。保存框只能出现在mmCIF字典中,它们不能被嵌套。下面的例子显示了包含数据项_exptl.details定义的保存框。

save__exptl.details
    _item_description.description
;              Any special information about the experimental work prior to the
               intensity measurement. See also _exptl_crystal.preparation.
;
    _item.name                  '_exptl.details'
    _item.category_id             exptl
    _item.mandatory_code          no
    _item_aliases.alias_name    '_exptl_special_details'
    _item_aliases.dictionary      cif_core.dic
    _item_aliases.version         2.0.1
    _item_type.code               text
     save_

保存框架在STAR中的作用比在mmCIF中重要得多。在一个STAR文件应用中,如NMR-STAR,保存框架作为一个可重复使用的信息单元,可以在文件中引用和扩展。在STAR文件中,保存框架的参考方法是在保存框架的名称前加上一个美元符号。mmCIF中保存框架的使用仅限于其提供的组织和范围功能。 mmCIF不支持对保存框架的引用,也不支持为封装字典定义以外的目的使用保存框架。

Atomic-level Data

一个典型的PDB条目将包含蛋白质、小分子、离子和水的不同集合的原子坐标。
坐标部分的每个原子都由条目文件中的顺序号、具体的原子名称、所属残基的名称和编号、指定链的单字母代码、其X、Y和Z坐标以及占用和温度系数来识别。
在PDBx/mmCIF格式中,这些信息被存储在_atom_site类别中。下面显示的是条目4HHB的这一部分的前几行。

loop_
_atom_site.group_PDB    # ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子
_atom_site.id
_atom_site.type_symbol    # 原子类型
_atom_site.label_atom_id    # 原子标签
_atom_site.label_alt_id   # 异构体
_atom_site.label_comp_id    # 所属残基
_atom_site.label_asym_id    # 不同链
_atom_site.label_entity_id    # 链编号
_atom_site.label_seq_id    # 残基序号
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x    # X坐标
_atom_site.Cartn_y    # Y坐标
_atom_site.Cartn_z    # Z坐标
_atom_site.occupancy    # 晶体中(包含了多个单个的相同分子)不同构象的比例
_atom_site.B_iso_or_equiv    # 表示电子密度拖尾的情况,越大拖尾越严重,表明原子运动得越厉害
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id    # 残基序号
_atom_site.auth_comp_id    # 残基种类
_atom_site.auth_asym_id    # 不同链
_atom_site.auth_atom_id    # 原子类型
_atom_site.pdbx_PDB_model_num    # 模型编号(NMR可能产生多种不同的模型)
ATOM   1    N N   . LYS A 1 7   ? 12.364  -13.639 8.445   1.00 54.67  ? 527 LYS A N   1
ATOM   2    C CA  . LYS A 1 7   ? 11.119  -12.888 8.550   1.00 49.59  ? 527 LYS A CA  1
ATOM   3    C C   . LYS A 1 7   ? 9.961   -13.651 7.926   1.00 44.77  ? 527 LYS A C   1
ATOM   4    O O   . LYS A 1 7   ? 9.055   -14.126 8.617   1.00 49.39  ? 527 LYS A O   1
ATOM   5    C CB  . LYS A 1 7   ? 11.255  -11.538 7.841   1.00 49.41  ? 527 LYS A CB  1
ATOM   6    C CG  . LYS A 1 7   ? 10.169  -10.531 8.174   1.00 53.16  ? 527 LYS A CG  1
ATOM   7    C CD  . LYS A 1 7   ? 10.523  -9.771  9.432   1.00 59.71  ? 527 LYS A CD  1
ATOM   8    C CE  . LYS A 1 7   ? 11.779  -8.947  9.195   1.00 63.60  ? 527 LYS A CE  1
ATOM   9    N NZ  . LYS A 1 7   ? 12.353  -8.381  10.443  1.00 64.85  ? 527 LYS A NZ  1
ATOM   10   N N   . ARG A 1 8   ? 10.011  -13.762 6.603   1.00 40.03  ? 528 ARG A N   1
<snip>

在PDB文件格式中,ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子。下面显示的是4HHB条目这一部分的前几行。

ATOM      1  N   LYS A 527      12.364 -13.639   8.445  1.00 54.67           N 
ATOM      2  CA  LYS A 527      11.119 -12.888   8.550  1.00 49.59           C 
ATOM      3  C   LYS A 527       9.961 -13.651   7.926  1.00 44.77           C 
ATOM      4  O   LYS A 527       9.055 -14.126   8.617  1.00 49.39           O 
ATOM      5  CB  LYS A 527      11.255 -11.538   7.841  1.00 49.41           C 
ATOM      7  CD  LYS A 527      10.523  -9.771   9.432  1.00 59.71           C 
ATOM      8  CE  LYS A 527      11.779  -8.947   9.195  1.00 63.60           C 
ATOM      9  NZ  LYS A 527      12.353  -8.381  10.443  1.00 64.85           N 
ATOM     10  N   ARG A 528      10.011 -13.762   6.603  1.00 40.03           N 

这些信息让你在探索结构时有很多控制权。例如,大多数分子图形程序使您能够有选择地给分子的确定部分着色–例如,挑选出所有的碳原子并将其染成绿色,或者挑选一个特定的氨基酸并将其突出显示。

Chains and Models

生物分子是有层次的,从原子到残基到链到组合体。坐标文件包含组织和指定所有这些层次的分子的方法。如上所述,原子名称和残基信息都包含在每个原子记录中。
在PDBx/mmCIF格式中,记录的循环性质使得它很容易代表不同的链和多个分子。
下面显示的是条目4hhb的一个片段,显示了从链A到链B的过渡,其中链在_atom_site.label_asym_id记录中被指定,并在_atom_site.label_entity_id记录中被进一步识别。请参阅《PDB结构和PDBx/mmCIF格式初学者指南》以了解对实体的介绍。

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1    N  N   . VAL A 1 1   ? 6.204   16.869  4.854   1.00 49.05 ? 1   VAL A N   1
ATOM   2    C  CA  . VAL A 1 1   ? 6.913   17.759  4.607   1.00 43.14 ? 1   VAL A CA  1
ATOM   3    C  C   . VAL A 1 1   ? 8.504   17.378  4.797   1.00 24.80 ? 1   VAL A C   1
<snip>
ATOM   1067 N  NH1 . ARG A 1 141 ? -10.147 7.455   -6.079  1.00 23.24 ? 141 ARG A NH1 1
ATOM   1068 N  NH2 . ARG A 1 141 ? -8.672  8.328   -4.506  1.00 33.34 ? 141 ARG A NH2 1
ATOM   1069 O  OXT . ARG A 1 141 ? -9.474  13.682  -9.742  1.00 31.52 ? 141 ARG A OXT 1
ATOM   1070 N  N   . VAL B 2 1   ? 9.223   -20.614 1.365   1.00 46.08 ? 1   VAL B N   1
ATOM   1071 C  CA  . VAL B 2 1   ? 8.694   -20.026 -0.123  1.00 70.96 ? 1   VAL B CA  1
ATOM   1072 C  C   . VAL B 2 1   ? 9.668   -21.068 -1.645  1.00 69.74 ? 1   VAL B C   1
ATOM   1073 O  O   . VAL B 2 1   ? 9.370   -22.612 -0.994  1.00 71.82 ? 1   VAL B O   1
<snip>

在这里,对于解NMR集合结构条目1vre,_atom_site.pdbx_PDB_model_num记录被用来表示文件中代表的29种不同的模型:

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1     N  N    . GLY A 1 1   ? 13.878  9.721   9.134   1.00 0.00 ? 1   GLY A N    1
ATOM   2     C  CA   . GLY A 1 1   ? 12.761  8.747   8.973   1.00 0.00 ? 1   GLY A CA   1
ATOM   3     C  C    . GLY A 1 1   ? 13.273  7.506   8.239   1.00 0.00 ? 1   GLY A C    1
<snip>
HETATM 2175  H  HBD2 . HEM B 2 .   ? -8.871  3.884   -8.248  1.00 0.00 ? 148 HEM A HBD2 1
HETATM 2176  C  C    . CMO C 3 .   ? -7.184  0.894   -1.865  1.00 0.00 ? 149 CMO A C    1
HETATM 2177  O  O    . CMO C 3 .   ? -7.008  -0.217  -1.956  1.00 0.00 ? 149 CMO A O    1
ATOM   2178  N  N    . GLY A 1 1   ? 11.063  9.378   8.937   1.00 0.00 ? 1   GLY A N    2
ATOM   2179  C  CA   . GLY A 1 1   ? 10.504  8.078   8.473   1.00 0.00 ? 1   GLY A CA   2
ATOM   2180  C  C    . GLY A 1 1   ? 11.648  7.196   7.970   1.00 0.00 ? 1   GLY A C    2
<snip>
HETATM 63131 H  HBD2 . HEM B 2 .   ? -8.603  4.604   -7.315  1.00 0.00 ? 148 HEM A HBD2 29
HETATM 63132 C  C    . CMO C 3 .   ? -7.211  0.912   -1.966  1.00 0.00 ? 149 CMO A C    29
HETATM 63133 O  O    . CMO C 3 .   ? -7.058  -0.203  -2.022  1.00 0.00 ? 149 CMO A O    29
#

在PDB文件格式中,TER记录被用来分离蛋白质和核酸不同的链。这些链一个接一个地包含在文件中,用TER记录隔开,表示这些链之间没有物理连接。大多数分子图形程序会寻找这个TER记录,这样他们就不会画出连接不同链的键。下图是条目4HHB的部分,其中TER记录被用来分隔α链的第一份(A链)和β链的第一份(B链)。

ATOM   1067  NH1 ARG A 141     -10.147   7.455  -6.079  1.00 23.24           N 
ATOM   1068  NH2 ARG A 141      -8.672   8.328  -4.506  1.00 33.34           N 
ATOM   1069  OXT ARG A 141      -9.474  13.682  -9.742  1.00 31.52           O 
TER    1070      ARG A 141                             
ATOM   1071  N   VAL B   1       9.223 -20.614   1.365  1.00 46.08           N 
ATOM   1072  CA  VAL B   1       8.694 -20.026  -0.123  1.00 70.96           C 
ATOM   1073  C   VAL B   1       9.668 -21.068  -1.645  1.00 69.74           C 
ATOM   1074  O   VAL B   1       9.370 -22.612  -0.994  1.00 71.82           O 
ATOM   1075  CB  VAL B   1       9.283 -18.281  -0.381  1.00 59.18           C 
ATOM   1076  CG1 VAL B   1       7.449 -17.518  -0.791  1.00 57.89           C 

B链和C链将被类似地分开,C链和D链也是如此。

PDB格式文件使用MODEL/ENDMDL关键字来表示一个文件中的多个分子。这最初是为了存档包括同一结构的几个不同模型的坐标集,如核磁共振分析中获得的结构组合。当你查看这些文件时,你会看到几十个类似的分子全部叠加在一起。现在,MODEL关键词也被用于生物组装文件中,以分离从不对称单元中生成的许多对称的分子拷贝(更多信息请参见生物组装教程)。
下面显示的是条目1out的生物组装文件的一个部分,它包含不对称单元中血红蛋白模型的一半(A链和B链)。完整的4链分子在生物组装文件中可以找到,其中的两组两链被MODEL记录分开。

<snip>
MODEL        1
HETATM    1  C   ACE A   0      40.573  27.347  55.464  1.00 42.49           C 
HETATM    2  O   ACE A   0      41.130  27.445  56.567  1.00 50.27           O 
HETATM    3  CH3 ACE A   0      39.709  28.526  55.115  1.00 49.32           C 
<snip>
HETATM 2475  O   HOH B 238       8.440  58.387  54.230  1.00 67.86           O 
HETATM 2476  O   HOH B 239      23.699  54.828  72.752  1.00 71.63           O 
HETATM 2477  O   HOH B 240      30.823  46.229  47.604  1.00 71.95           O 
ENDMDL                                                                         
MODEL       2                                                                  
HETATM    1  C   ACE A   0      50.950  33.338  48.783  1.00 42.49           C 
HETATM    2  O   ACE A   0      50.587  32.905  47.680  1.00 50.27           O 
HETATM    3  CH3 ACE A   0      50.361  34.676  49.132  1.00 49.32           C 
<snip>
HETATM 2475  O   HOH B 238      40.135  76.686  50.017  1.00 67.86           O 
HETATM 2476  O   HOH B 239      35.588  61.692  31.495  1.00 71.63           O 
HETATM 2477  O   HOH B 240      39.473  51.223  56.643  1.00 71.95           O 
ENDMDL                                                                         
MASTER        0    0    0   16    0    0    8    6 2475    2    0   23         
END      

Temperature Factors

如果我们能够将一个原子僵硬地固定在一个地方,我们可以在理想的情况下观察它的电子分布。图像中的电子会向中心密集,距离原子核越远密度越小。然而,当你观察实验中的电子密度分布时,电子的分布通常比这种理想情况更宽。这可能是由于原子的振动,或者晶格中许多不同分子之间的差异。观察到的电子密度将包括所有这些小的运动的平均值,产生一个略微模糊的分子图像。
这些运动,以及由此产生的电子密度拖尾,通过 B 值或温度因子结合到原子模型中。拖尾量与 B 值的大小成正比。低于 10 的值会创建一个非常锐利的原子模型,这表明原子移动不大,并且在晶体中的所有分子中处于相同位置。大于 50 左右的值表明原子移动得太快以至于几乎看不到它。蛋白质表面的原子通常是这种情况,其中长侧链可以在周围的水中自由摆动。
在 PDBx/mmCIF 格式中,_atom_site.B_iso_or_equiv 记录用于存储温度因子值。再次来自条目 4hhb:

<snip>
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv    # B值
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1    N  N   . VAL A 1 1   ? 6.204   16.869  4.854   1.00 49.05 ? 1   VAL A N   1
ATOM   2    C  CA  . VAL A 1 1   ? 6.913   17.759  4.607   1.00 43.14 ? 1   VAL A CA  1
ATOM   3    C  C   . VAL A 1 1   ? 8.504   17.378  4.797   1.00 24.80 ? 1   VAL A C   1
<snip>

在PDB文件格式中,温度系数在第61-66列中给出。从条目4hhb:

<snip>
ATOM      1  N   VAL A   1       6.204  16.869   4.854  1.00 49.05           N 
ATOM      2  CA  VAL A   1       6.913  17.759   4.607  1.00 43.14           C 
ATOM      3  C   VAL A   1       8.504  17.378   4.797  1.00 24.80           C 
<snip>

所示示例来自以 2.0 Å 分辨率解析的肌红蛋白结构(PDB 条目 1mbi)。显示了两个组氨酸氨基酸。左边是 HIS93,它与铁原子配位,因此被牢牢固定在适当的位置。它的 B 值在 15-20 范围内——注意轮廓如何很好地围绕整个氨基酸,显示出尖锐的电子密度。右边是HIS81,暴露在蛋白质表面,B值较高,在22-74范围内。还要注意轮廓如何包围更小的空间,显示该氨基酸具有高电子密度的较小区域,因为整体电子密度在轮廓周围的空间中被微弱地涂抹。

上图显示的是整个分子,原子的颜色由温度因素决定。表示大量运动的高值为红色和黄色,而低值为蓝色。请注意,蛋白质内部的B值较低,而表面的氨基酸的B值较高。
提示:温度系数是衡量我们对每个原子位置的信心。如果你在一个蛋白质的表面发现了一个温度系数很高的原子,请记住,这个原子可能是经常移动的,在PDB文件中指定的坐标只是其位置的一个可能快照。

Occupancy and Multiple Conformations

大分子晶体由许多单独的分子组成,排列成对称排列。在某些晶体中,这些分子中的每一个之间都有细微的差异。例如,表面上的侧链可能在几个构象之间来回摆动,或者底物可能在活性位点中以两个方向结合,或者金属离子可能仅与少数分子结合。当研究人员建立这些部分的原子模型时,他们可以使用占用率来估计在晶体中观察到的每种构象的数量。对于大多数原子,占有率为 1,表明该原子存在于晶体中同一位置的所有分子中。但是,如果金属离子仅与晶体中一半的分子结合,研究人员将在电子密度图中看到该离子的弱图像,并且可以在 PDB 结构文件中为该原子分配 0.5 的占用率。占用也常用于识别在多种构象中观察到的侧链或配体。占有率值用于指示具有每种构象的分子的分数。每个原子包含两个(或更多)原子记录,占用率如 0.5 和 0.5,或 0.4 和 0.6,或其他总和为 1 的分数占用率。

肌红蛋白中的交替构象:图中的两幅图像取自条目1a6m中肌红蛋白的高分辨率结构:左边是谷氨酰胺8,右边是酪氨酸151。在这两种情况下,保存人将实验数据解释为显示了氨基酸的两种构象,谷氨酰胺的占据率为0.57和0.43,而酪氨酸构象的占据率为0.5。蓝色的轮廓线围绕着高电子密度的区域,原子模型用棍子表示。

提示:在处理具有多个坐标的 PDB 条目时,您通常需要密切注意。并不总是可以只选择“A”构象并丢弃“B”构象。您需要仔细查看每种情况,并确保移动侧链之间没有任何不良接触。

在 PDBx/mmCIF 格式中,_atom_site.label_alt_id类别中指示替代构象,_atom_site.occupancy 类别中指示占用。下面显示的是条目 1a6m 中的残基 8。

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id    # Multiple Conformations
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy    # Occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
<snip>
ATOM   63   N  N   . GLN A 1 8   ? 5.404  13.203 22.532  1.00 8.42  ? 8    GLN A N   1
ATOM   64   C  CA  . GLN A 1 8   ? 6.475  12.812 23.418  1.00 8.84  ? 8    GLN A CA  1
ATOM   65   C  C   . GLN A 1 8   ? 7.602  12.149 22.631  1.00 8.08  ? 8    GLN A C   1
ATOM   66   O  O   . GLN A 1 8   ? 8.769  12.399 22.918  1.00 8.39  ? 8    GLN A O   1
ATOM   67   C  CB  A GLN A 1 8   ? 5.987  11.822 24.520  0.57 13.03 ? 8    GLN A CB  1
ATOM   68   C  CB  B GLN A 1 8   ? 5.948  11.968 24.580  0.43 9.68  ? 8    GLN A CB  1
ATOM   69   C  CG  A GLN A 1 8   ? 7.030  11.303 25.506  0.57 16.30 ? 8    GLN A CG  1
ATOM   70   C  CG  B GLN A 1 8   ? 6.967  12.094 25.688  0.43 12.07 ? 8    GLN A CG  1
ATOM   71   C  CD  A GLN A 1 8   ? 7.981  10.227 25.063  0.57 15.61 ? 8    GLN A CD  1
ATOM   72   C  CD  B GLN A 1 8   ? 6.439  11.470 26.952  0.43 14.43 ? 8    GLN A CD  1
ATOM   73   O  OE1 A GLN A 1 8   ? 7.688  9.392  24.214  0.57 19.54 ? 8    GLN A OE1 1
ATOM   74   O  OE1 B GLN A 1 8   ? 5.419  10.767 26.918  0.43 17.46 ? 8    GLN A OE1 1
ATOM   75   N  NE2 A GLN A 1 8   ? 9.219  10.114 25.607  0.57 21.38 ? 8    GLN A NE2 1
ATOM   76   N  NE2 B GLN A 1 8   ? 7.067  11.762 28.084  0.43 14.03 ? 8    GLN A NE2 1

在 PDB 文件格式中,使用替代位置指示符在第 17 列中给出了替代构象,在第 55 - 60 列中给出了占用率。下面从条目 1a6m 显示的是以两种不同构象 A 和 B 建模的谷氨酰胺残基 8,其中构象 A给定 57% 的占用率,而构象 B 给定 43% 的占用率:

ATOM     63  N   GLN A   8       5.404  13.203  22.532  1.00  8.42           N 
ATOM     64  CA  GLN A   8       6.475  12.812  23.418  1.00  8.84           C 
ATOM     65  C   GLN A   8       7.602  12.149  22.631  1.00  8.08           C 
ATOM     66  O   GLN A   8       8.769  12.399  22.918  1.00  8.39           O 
ATOM     67  CB AGLN A   8       5.987  11.822  24.520  0.57 13.03           C 
ATOM     68  CB BGLN A   8       5.948  11.968  24.580  0.43  9.68           C 
ATOM     69  CG AGLN A   8       7.030  11.303  25.506  0.57 16.30           C 
ATOM     70  CG BGLN A   8       6.967  12.094  25.688  0.43 12.07           C 
ATOM     71  CD AGLN A   8       7.981  10.227  25.063  0.57 15.61           C 
ATOM     72  CD BGLN A   8       6.439  11.470  26.952  0.43 14.43           C 
ATOM     73  OE1AGLN A   8       7.688   9.392  24.214  0.57 19.54           O 
ATOM     74  OE1BGLN A   8       5.419  10.767  26.918  0.43 17.46           O 
ATOM     75  NE2AGLN A   8       9.219  10.114  25.607  0.57 21.38           N 
ATOM     76  NE2BGLN A   8       7.067  11.762  28.084  0.43 14.03           N 
<snip>

Missing Coordinates and Biological Assemblies

由于结构确定方法的特点,大多数条目不包括已识别分子中每个原子的坐标。在某些情况下,实验方法可能无法观察到某些原子。例如,在 X 射线晶体学实验中没有观察到柔性区域和氢原子,因此不包含在 PDB 坐标文件中。在其他情况下,只有一部分分子可能包含在 PDB 条目中。例如,在对称分子的 X 射线晶体结构中,PDB 条目通常仅包含复合物的一个亚基,并且需要根据亚基坐标计算完整生物组装的坐标。搜索 PDB 档案时,重要的是要考虑结构的哪些部分包含在每个特定条目中。
下面描述了您可能遇到的一些常见情况。

Asymmetric and Biological Assemblies

在用于 X 射线晶体学的晶体中,蛋白质和/或核酸的多个拷贝对称地堆叠在一个阵列中。通常,该数组的最小唯一部分的结构(称为非对称单元,asymmetric unit)存放在 PDB 档案中。根据晶体中的对称性,不对称单元可以具有一个或多个拷贝的蛋白质和/或核酸。
分子的生物学相关组装可能与 PDB 条目中包含的不对称单元结构完全不同。对于充当四聚体的血红蛋白,不对称单元在一些 PDB 条目中仅包括 2 条链(功能性四聚体的一半),在其他条目中包括 8 条或更多链(代表几个功能性四聚体)。二十面体病毒是另一个常见的例子:通常只存放一条链,因此需要生成衣壳中所有 60 条链的坐标。如果您想自己进行计算,条目文件中提供了生成或选择生物组装链所需的对称操作,或者您可以从档案中下载生物组装的坐标。

Alpha-Carbon Coordinate Files

在某些情况下,实验只产生蛋白质的低分辨率图像,例如来自电子显微镜或 X 射线晶体学的结构,其晶体排列不整齐。在这些情况下,实验数据不足以解析每个原子,研究人员可能会选择仅包含蛋白质中每个氨基酸的单个坐标。大多数情况下,包括α-碳位置的位置。这些结构显示了蛋白质链的折叠。

提示:如果您尝试显示 PDB 条目的线框图并得到一个空白屏幕或只是一堆小点,您可能正在查看一个只有 α-碳的结构。线框图通常会在这些文件中出现空白,因为 α-碳位置相距太远而无法显示键。相反,尝试使用带状图或粗骨架管来显示分子。如果您的分子图形程序允许使用那么大的球体,则具有人工大球体(半径 5 埃)的空间填充图也可以很好地工作。

Missing Loops and Tails

由于 X 射线晶体学依赖于获得具有许多完全相同位置的蛋白质的晶体,因此柔性蛋白质会引起问题。在 X 射线结构中通常不会观察到蛋白质中移动的区域,因此这些区域的坐标不包含在 PDB 条目中。您会将这些视为链中的断点,并且通常是链开头和结尾处的缺失部分。源自 NMR 的结构通常不存在此问题。 NMR 结构的集合通常包括几种非常不同的柔性区域构象,因此您可以选择一种或全部使用它们。
不幸的是,除了为缺失部分建模坐标外,没有简单的解决方案来解决这个问题 (see the list of links for molecular modeling programs)。 这个问题可能很重要,因为柔性环通常涉及蛋白质的活性位点或结合位点。

提示:搜索包括配体或结合配偶体的其他结构通常很有用。在这些情况下,环可能以稳定的构象围绕配体闭合,因此将在晶体学实验中看到。

Fragments and Domains

许多大型蛋白质,尤其是具有几个可移动部分的蛋白质,已被证明不可能作为一个整体结晶。在这些情况下,研究人员采取了分段方法。他们将蛋白质切成易于处理的小块,然后解析出每一块的结构。为了获得整个蛋白质的图片,必须以正确的方向重新组装这些片段。
不幸的是,在这些情况下,没有综合资源可以帮助您拼凑功能分子。您将需要查看序列数据以及分子生物学报告来整理整体形式。
提示:在搜索 PDB 条目时,请务必注意每个坐标文件中实际包含的内容。注意 PDB 标题中的“配体结合域”和“片段”等词,它提示您正在查看功能分子的一部分。

Where are the Hydrogen Atoms?

大多数晶体学实验不解析氢原子,因此 PDB 档案中的大多数晶体坐标文件仅包含非氢原子的位置。在某些情况下,在结构细化过程中使用极性氢原子(极性氢原子是那些与氮、氧和硫相连的原子,它们可以参与氢键)。另一方面,NMR 确定的结构通常包括结构中的所有氢原子,因为在这些实验中获得的大部分实验信息包括这些氢原子之间的距离。
由于晶体学实验通常看不到氢原子,并且由于氧原子和氮原子具有相似数量的电子,因此在晶体学电子密度图中看起来相似,因此通常难以确定侧链中原子的确切身份,例如天冬酰胺和谷氨酰胺。在某些情况下,如果您仔细观察与相邻氨基酸的氢键模式,您可能会通过转换酰胺侧链中的氮和氧来找到更好的匹配。
提示:Reduce 程序可用于添加蛋白质和核酸中缺失的氢原子,以及确定蛋白质中的最佳氢键模式。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值