一、PDB文件
PDB 文件是用于存储蛋白质和DNA等其他生物大分子三维 (3D) 结构的纯文本标准化格式,每一行信息称为一个 记录(record)。
1. 文件格式
1.1 标题
- HEADER:分子类, 公布日期, ID号
- TITLE:实验方法类型
- COMPND:化合物分子组成
- SOURCE:化合物来源
- KEYWORDS:关键词
- REMARK:注释信息
- AUTHOR:结构测定者
1.2 结构信息
- HELIX:螺旋。标识螺旋的位置和类型(右手α螺旋等), 每个螺旋一条记录。
- SHEET:片层。标识每个片层的位置, 类型(sense, 如反平行等),相对于模型中每个束的片层(如果存在的话)中前一束的说明, 每个片层一条记录。
- TURN:转角
1.3 连接注释
- LINK: 残基间的非标准化学键或相互作用。
- HYDBND: 氢键。
- SLTBRG: 盐桥,这是一种离子相互作用。
- CISPEP: 顺式肽链,表示肽链中的某些顺式异构体。
- SSBOND: 二硫键,定义半胱氨酸(CYS)残基之间的二硫键。
1.4 原子信息
- ATOM:原子信息
- HETATM:非标准残基信息
以蛋白质PDB为例,其中存储每个原子的具体信息格式如下所示:
ATOM 7 SD MET B 568 -17.270 16.304 33.004 1.00 45.60 S
ATOM 8 CE MET B 568 -17.026 17.040 34.645 1.00 36.22 C
ATOM 9 N GLU B 569 -15.533 19.978 28.561 1.00 52.85 N
ATOM 10 CA GLU B 569 -15.972 20.297 27.206 1.00 53.06 C
ATOM 11 C GLU B 569 -14.840 20.105 26.200 1.00 52.95 C
ATOM 12 CB GLU B 569 -16.500 21.732 27.135 1.00 50.74 C
以第一行为例:
- ATOM:记录类型,表示一个标准原子的记录。
- 7:原子编号。原子在当前记录中的唯一编号。
- SD:原子名,
SD
表示硫原子,这在某些氨基酸(如甲硫氨酸)的侧链中常见。 - MET:残基名,
MET
表示甲硫氨酸。这是包含该原子的氨基酸的名称。 - B:链标识符,表示该原子属于链B。
- 568:残基编号,表示该原子所属的氨基酸在链B中的位置。
- -17.270:X坐标,表示原子在三维空间中的X坐标。
- 16.304:Y坐标,表示原子在三维空间中的Y坐标。
- 33.004:Z坐标,表示原子在三维空间中的Z坐标。
- 1.00:占有率,表示该原子的占有率通常为1.0,表示在该位置原子出现的概率。
- 45.60:温度因子(或B因子),表示原子的热运动或位置的不确定性。
- S:元素符号。
二、FASTA文件
FASTA 文件是一种广泛使用的生物信息学文件格式,用于存储核酸序列(DNA、RNA)或蛋白质序列、序列比对、序列分析和数据库的序列存储等。
2.1文件结构
-
标题行:
- 以一个“
>
”符号开头,后跟一个描述性的标题。标题行通常包含序列的标识符和可能的附加信息。 - 示例:
>4O4C_1|Chains A, B|Inositol hexakisphosphate kinase|Entamoeba histolytica (885318) GSFTAGGHGGPQQLHPDGQYLLKPCLSHRERDFYLHIKDDKEWTGTGIIPKFYGVELHEFGFGELEFIRMENLMYKYKRPFVLDLKIGTQTWDPETASSKMKKRLVVDSTSTTTSLGVRFSGMERNIGEEKPILYSRYLCTHEVNTRDSLKEYIKLFFNDGKKYRKELVPYFISQLDKMIEVMKKREYKMFSSSVLFVYDSTTTLEDKKYNCKMIDFAHNWILSEEECTVEDGFLFGLNNLKSILEDIENEFKSL
- 以一个“
-
序列行:
- 紧跟标题行的是一或多行序列数据。这些行仅包含序列的实际数据,通常是字母字符(例如,A、T、C、G表示DNA序列中的碱基,或氨基酸的单字母代码)。
蛋白质序列和基因(DNA)序列文件区别:
都可以用.fa或.fasta作为文件后缀。在某些情况下,.faa是指的蛋白质序列文件,.ffn是指的可以翻译为蛋白质的基因序列文件,.fna文件是指的基因组序列文件。
三、GBK文件
gbk格式即genbank格式,一般为基因组注释信息文件,可以得到基因的功能、物种和序列等信息,以下是一个示例。
LOCUS NODE_1 752872 bp DNA UNK 01-JAN-1980
DEFINITION NODE_1.
ACCESSION NODE_1
VERSION NODE_1
KEYWORDS .
SOURCE .
ORGANISM .
.
COMMENT ##antiSMASH-Data-START##
Version :: 6.0.1
Run date :: 2022-02-09 09:37:34
##antiSMASH-Data-END##
FEATURES Location/Qualifiers
CDS complement(join(26..358,444..602,686..697))
/gene="2126_t"
/gene_id="2126_g"
/phase="0"
/source="GeneMark.hmm"
/transcript_id="2126_t"
/transl_table=1
/translation="MRVRIINPQSATLTNIEVLTFLSANPPRRPPNPPPGVNQRHWIPS
PDLRDHNTVVKEIHNYATRLSPHLLRYPQYTSPSSTTDKAGKKAAAPEPETGLDIALRD
LITRLQPYGLTKGEVLMLVNLGVGLPPSGTAAEAGDGEGEGAVEDAGEEMDVDGGAENG
GGEEG"
CDS complement(join(1242..2686,2745..2905,3009..3133))
/gene="2127_t"
/gene_id="2127_g"
/source="GeneMark.hmm"
/transcript_id="2127_t"
/transl_table=1
/translation="MTLFILTETSAGYALLKAKDKKLLKRDDLATEASTAEGVSGLLKL
KSFQKFDSATTALEEVASLVEGKVTPRLASLLDEIKDEKKVSLAVADPKLGNAIGKLPG
LDISLVADSTTADIYRAIREHLPTLIPGLLPQDMSTMSLGLSHSLARHKLKFSPDKIDT
MIVQAIGLLDDLDKELNNYAMRVKEWYGWHFPELAKILNDNIAYARLVLKMGMRTNWES
SDLAEILPEEIEGAVKAAADRSMGTEISDEDLENIQALAEQVIGFSDYRSQLAGYITAR
MNAIAPNLTALVGDLVGARLIAHAGSLTNLSKSPASTLQILGAEKALFRALKTKHDTPK
YGLIYHASLIGQATGKNKGKMARVLAAKASLGIRVDALAEWDDDVAEEEKSTLGTEARY
NLEKKLAALEGKPLKPRGVAIAPNGQPGKFNLNEVRKYNPDADAMDEDEATPAKKKLVQ
EVQDEDMADADSDEEPAVNGADSDESEDESPKKKSKKDSELEKLAEKAGLSLKRYKRKL
ERGEIEFDAAGNPSAVSKKDIKKAKKEAKKSSKGEEKKRKRSDDNEDADGKKKKKKRDD
"
作者有话说:在生物信息领域,还有很多其他常用的生物信息格式,例如与GBK文件的功能类似的KEGG文件(本文没有收录,可通过链接查询:KEGG)。其他生物信息格式如SAM、BAM、fq等等,会在一些序列比对软件和生物组学分析中使用到。对此类文件的解析相当成熟,对其中的内容可以查询更具体的教程或者交给解析软件。本文提到的PDB,FASTA文件是最常用的文件,希望能有一些帮助。