生信领域 - 文件格式一文搞懂!

一、PDB文件

        PDB 文件是用于存储蛋白质和DNA等其他生物大分子三维 (3D) 结构的纯文本标准化格式,每一行信息称为一个 记录(record)。

1. 文件格式

1.1 标题

  1. HEADER:分子类, 公布日期, ID号
  2. TITLE:实验方法类型
  3. COMPND:化合物分子组成
  4. SOURCE:化合物来源
  5. KEYWORDS:关键词
  6. REMARK:注释信息
  7. AUTHOR:结构测定者

1.2 结构信息

  1. HELIX:螺旋。标识螺旋的位置和类型(右手α螺旋等), 每个螺旋一条记录。
  2. SHEET:片层。标识每个片层的位置, 类型(sense, 如反平行等),相对于模型中每个束的片层(如果存在的话)中前一束的说明, 每个片层一条记录。
  3. TURN:转角

1.3 连接注释

  1. LINK: 残基间的非标准化学键或相互作用。
  2. HYDBND: 氢键。
  3. SLTBRG: 盐桥,这是一种离子相互作用。
  4. CISPEP: 顺式肽链,表示肽链中的某些顺式异构体。
  5. SSBOND: 二硫键,定义半胱氨酸(CYS)残基之间的二硫键。

1.4 原子信息

  1. ATOM:原子信息
  2. HETATM:非标准残基信息

        以蛋白质PDB为例,其中存储每个原子的具体信息格式如下所示:

ATOM      7  SD  MET B 568     -17.270  16.304  33.004  1.00 45.60           S
ATOM      8  CE  MET B 568     -17.026  17.040  34.645  1.00 36.22           C
ATOM      9  N   GLU B 569     -15.533  19.978  28.561  1.00 52.85           N
ATOM     10  CA  GLU B 569     -15.972  20.297  27.206  1.00 53.06           C
ATOM     11  C   GLU B 569     -14.840  20.105  26.200  1.00 52.95           C
ATOM     12  CB  GLU B 569     -16.500  21.732  27.135  1.00 50.74           C

以第一行为例:

  1. ATOM:记录类型,表示一个标准原子的记录。
  2. 7:原子编号。原子在当前记录中的唯一编号。
  3. SD:原子名,SD表示硫原子,这在某些氨基酸(如甲硫氨酸)的侧链中常见。
  4. MET:残基名,MET表示甲硫氨酸。这是包含该原子的氨基酸的名称。
  5. B:链标识符,表示该原子属于链B。
  6. 568:残基编号,表示该原子所属的氨基酸在链B中的位置。
  7. -17.270:X坐标,表示原子在三维空间中的X坐标。
  8. 16.304:Y坐标,表示原子在三维空间中的Y坐标。
  9. 33.004:Z坐标,表示原子在三维空间中的Z坐标。
  10. 1.00:占有率,表示该原子的占有率通常为1.0,表示在该位置原子出现的概率。
  11. 45.60:温度因子(或B因子),表示原子的热运动或位置的不确定性。 
  12. S:元素符号。

二、FASTA文件

        FASTA 文件是一种广泛使用的生物信息学文件格式,用于存储核酸序列(DNA、RNA)或蛋白质序列、序列比对、序列分析和数据库的序列存储等。

2.1文件结构

  1. 标题行:

    • 以一个“>”符号开头,后跟一个描述性的标题。标题行通常包含序列的标识符和可能的附加信息。
    • 示例:
      >4O4C_1|Chains A, B|Inositol hexakisphosphate kinase|Entamoeba histolytica (885318)
      GSFTAGGHGGPQQLHPDGQYLLKPCLSHRERDFYLHIKDDKEWTGTGIIPKFYGVELHEFGFGELEFIRMENLMYKYKRPFVLDLKIGTQTWDPETASSKMKKRLVVDSTSTTTSLGVRFSGMERNIGEEKPILYSRYLCTHEVNTRDSLKEYIKLFFNDGKKYRKELVPYFISQLDKMIEVMKKREYKMFSSSVLFVYDSTTTLEDKKYNCKMIDFAHNWILSEEECTVEDGFLFGLNNLKSILEDIENEFKSL
  2. 序列行:

    • 紧跟标题行的是一或多行序列数据。这些行仅包含序列的实际数据,通常是字母字符(例如,A、T、C、G表示DNA序列中的碱基,或氨基酸的单字母代码)。

蛋白质序列和基因(DNA)序列文件区别:

        都可以用.fa或.fasta作为文件后缀。在某些情况下,.faa是指的蛋白质序列文件,.ffn是指的可以翻译为蛋白质的基因序列文件,.fna文件是指的基因组序列文件。

三、GBK文件

          gbk格式即genbank格式,一般为基因组注释信息文件,可以得到基因的功能、物种和序列等信息,以下是一个示例。

LOCUS       NODE_1                752872 bp    DNA              UNK 01-JAN-1980
DEFINITION  NODE_1.
ACCESSION   NODE_1
VERSION     NODE_1
KEYWORDS    .
SOURCE      .
  ORGANISM  .
            .
COMMENT     ##antiSMASH-Data-START##
            Version      :: 6.0.1
            Run date     :: 2022-02-09 09:37:34
            ##antiSMASH-Data-END##
FEATURES             Location/Qualifiers
     CDS             complement(join(26..358,444..602,686..697))
                     /gene="2126_t"
                     /gene_id="2126_g"
                     /phase="0"
                     /source="GeneMark.hmm"
                     /transcript_id="2126_t"
                     /transl_table=1
                     /translation="MRVRIINPQSATLTNIEVLTFLSANPPRRPPNPPPGVNQRHWIPS
                     PDLRDHNTVVKEIHNYATRLSPHLLRYPQYTSPSSTTDKAGKKAAAPEPETGLDIALRD
                     LITRLQPYGLTKGEVLMLVNLGVGLPPSGTAAEAGDGEGEGAVEDAGEEMDVDGGAENG
                     GGEEG"
     CDS             complement(join(1242..2686,2745..2905,3009..3133))
                     /gene="2127_t"
                     /gene_id="2127_g"
                     /source="GeneMark.hmm"
                     /transcript_id="2127_t"
                     /transl_table=1
                     /translation="MTLFILTETSAGYALLKAKDKKLLKRDDLATEASTAEGVSGLLKL
                     KSFQKFDSATTALEEVASLVEGKVTPRLASLLDEIKDEKKVSLAVADPKLGNAIGKLPG
                     LDISLVADSTTADIYRAIREHLPTLIPGLLPQDMSTMSLGLSHSLARHKLKFSPDKIDT
                     MIVQAIGLLDDLDKELNNYAMRVKEWYGWHFPELAKILNDNIAYARLVLKMGMRTNWES
                     SDLAEILPEEIEGAVKAAADRSMGTEISDEDLENIQALAEQVIGFSDYRSQLAGYITAR
                     MNAIAPNLTALVGDLVGARLIAHAGSLTNLSKSPASTLQILGAEKALFRALKTKHDTPK
                     YGLIYHASLIGQATGKNKGKMARVLAAKASLGIRVDALAEWDDDVAEEEKSTLGTEARY
                     NLEKKLAALEGKPLKPRGVAIAPNGQPGKFNLNEVRKYNPDADAMDEDEATPAKKKLVQ
                     EVQDEDMADADSDEEPAVNGADSDESEDESPKKKSKKDSELEKLAEKAGLSLKRYKRKL
                     ERGEIEFDAAGNPSAVSKKDIKKAKKEAKKSSKGEEKKRKRSDDNEDADGKKKKKKRDD
                     "

作者有话说:在生物信息领域,还有很多其他常用的生物信息格式,例如与GBK文件的功能类似的KEGG文件(本文没有收录,可通过链接查询:KEGG)。其他生物信息格式如SAM、BAM、fq等等,会在一些序列比对软件和生物组学分析中使用到。对此类文件的解析相当成熟,对其中的内容可以查询更具体的教程或者交给解析软件。本文提到的PDB,FASTA文件是最常用的文件,希望能有一些帮助。

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值