生信领域 - 文件格式一文搞懂！

五碗火锅

已于 2024-08-29 11:10:38 修改

阅读量1.3k

点赞数 19

分类专栏：生信领域文章标签：经验分享笔记其他

于 2024-08-28 08:34:55 首次发布

本文链接：https://blog.csdn.net/2201_76032270/article/details/141428007

版权

生信领域专栏收录该内容

4 篇文章

订阅专栏

一、PDB文件

PDB 文件是用于存储蛋白质和DNA等其他生物大分子三维 (3D) 结构的纯文本标准化格式，每一行信息称为一个 记录(record)。

1. 文件格式

1.1 标题

HEADER：分子类, 公布日期, ID号
TITLE：实验方法类型
COMPND：化合物分子组成
SOURCE：化合物来源
KEYWORDS：关键词
REMARK：注释信息
AUTHOR：结构测定者

1.2 结构信息

HELIX：螺旋。标识螺旋的位置和类型(右手α螺旋等), 每个螺旋一条记录。
SHEET：片层。标识每个片层的位置, 类型(sense, 如反平行等)，相对于模型中每个束的片层(如果存在的话)中前一束的说明, 每个片层一条记录。
TURN：转角

1.3 连接注释

LINK: 残基间的非标准化学键或相互作用。
HYDBND: 氢键。
SLTBRG: 盐桥，这是一种离子相互作用。
CISPEP: 顺式肽链，表示肽链中的某些顺式异构体。
SSBOND: 二硫键，定义半胱氨酸（CYS）残基之间的二硫键。

1.4 原子信息

ATOM：原子信息
HETATM：非标准残基信息

以蛋白质PDB为例，其中存储每个原子的具体信息格式如下所示：

ATOM      7  SD  MET B 568     -17.270  16.304  33.004  1.00 45.60           S
ATOM      8  CE  MET B 568     -17.026  17.040  34.645  1.00 36.22           C
ATOM      9  N   GLU B 569     -15.533  19.978  28.561  1.00 52.85           N
ATOM     10  CA  GLU B 569     -15.972  20.297  27.206  1.00 53.06           C
ATOM     11  C   GLU B 569     -14.840  20.105  26.200  1.00 52.95           C
ATOM     12  CB  GLU B 569     -16.500  21.732  27.135  1.00 50.74           C

以第一行为例：

ATOM：记录类型，表示一个标准原子的记录。
7：原子编号。原子在当前记录中的唯一编号。
SD：原子名，SD表示硫原子，这在某些氨基酸（如甲硫氨酸）的侧链中常见。
MET：残基名，MET表示甲硫氨酸。这是包含该原子的氨基酸的名称。
B：链标识符，表示该原子属于链B。
568：残基编号，表示该原子所属的氨基酸在链B中的位置。
-17.270：X坐标，表示原子在三维空间中的X坐标。
16.304：Y坐标，表示原子在三维空间中的Y坐标。
33.004：Z坐标，表示原子在三维空间中的Z坐标。
1.00：占有率，表示该原子的占有率通常为1.0，表示在该位置原子出现的概率。
45.60：温度因子（或B因子），表示原子的热运动或位置的不确定性。
S：元素符号。

二、FASTA文件

FASTA 文件是一种广泛使用的生物信息学文件格式，用于存储核酸序列（DNA、RNA）或蛋白质序列、序列比对、序列分析和数据库的序列存储等。

2.1文件结构

标题行:

以一个“>”符号开头，后跟一个描述性的标题。标题行通常包含序列的标识符和可能的附加信息。

示例：

>4O4C_1|Chains A, B|Inositol hexakisphosphate kinase|Entamoeba histolytica (885318)
GSFTAGGHGGPQQLHPDGQYLLKPCLSHRERDFYLHIKDDKEWTGTGIIPKFYGVELHEFGFGELEFIRMENLMYKYKRPFVLDLKIGTQTWDPETASSKMKKRLVVDSTSTTTSLGVRFSGMERNIGEEKPILYSRYLCTHEVNTRDSLKEYIKLFFNDGKKYRKELVPYFISQLDKMIEVMKKREYKMFSSSVLFVYDSTTTLEDKKYNCKMIDFAHNWILSEEECTVEDGFLFGLNNLKSILEDIENEFKSL

序列行:
- 紧跟标题行的是一或多行序列数据。这些行仅包含序列的实际数据，通常是字母字符（例如，A、T、C、G表示DNA序列中的碱基，或氨基酸的单字母代码）。

蛋白质序列和基因（DNA）序列文件区别：

都可以用.fa或.fasta作为文件后缀。在某些情况下，.faa是指的蛋白质序列文件，.ffn是指的可以翻译为蛋白质的基因序列文件，.fna文件是指的基因组序列文件。

三、GBK文件

gbk格式即genbank格式，一般为基因组注释信息文件，可以得到基因的功能、物种和序列等信息，以下是一个示例。

LOCUS       NODE_1                752872 bp    DNA              UNK 01-JAN-1980
DEFINITION  NODE_1.
ACCESSION   NODE_1
VERSION     NODE_1
KEYWORDS    .
SOURCE      .
  ORGANISM  .
            .
COMMENT     ##antiSMASH-Data-START##
            Version      :: 6.0.1
            Run date     :: 2022-02-09 09:37:34
            ##antiSMASH-Data-END##
FEATURES             Location/Qualifiers
     CDS             complement(join(26..358,444..602,686..697))
                     /gene="2126_t"
                     /gene_id="2126_g"
                     /phase="0"
                     /source="GeneMark.hmm"
                     /transcript_id="2126_t"
                     /transl_table=1
                     /translation="MRVRIINPQSATLTNIEVLTFLSANPPRRPPNPPPGVNQRHWIPS
                     PDLRDHNTVVKEIHNYATRLSPHLLRYPQYTSPSSTTDKAGKKAAAPEPETGLDIALRD
                     LITRLQPYGLTKGEVLMLVNLGVGLPPSGTAAEAGDGEGEGAVEDAGEEMDVDGGAENG
                     GGEEG"
     CDS             complement(join(1242..2686,2745..2905,3009..3133))
                     /gene="2127_t"
                     /gene_id="2127_g"
                     /source="GeneMark.hmm"
                     /transcript_id="2127_t"
                     /transl_table=1
                     /translation="MTLFILTETSAGYALLKAKDKKLLKRDDLATEASTAEGVSGLLKL
                     KSFQKFDSATTALEEVASLVEGKVTPRLASLLDEIKDEKKVSLAVADPKLGNAIGKLPG
                     LDISLVADSTTADIYRAIREHLPTLIPGLLPQDMSTMSLGLSHSLARHKLKFSPDKIDT
                     MIVQAIGLLDDLDKELNNYAMRVKEWYGWHFPELAKILNDNIAYARLVLKMGMRTNWES
                     SDLAEILPEEIEGAVKAAADRSMGTEISDEDLENIQALAEQVIGFSDYRSQLAGYITAR
                     MNAIAPNLTALVGDLVGARLIAHAGSLTNLSKSPASTLQILGAEKALFRALKTKHDTPK
                     YGLIYHASLIGQATGKNKGKMARVLAAKASLGIRVDALAEWDDDVAEEEKSTLGTEARY
                     NLEKKLAALEGKPLKPRGVAIAPNGQPGKFNLNEVRKYNPDADAMDEDEATPAKKKLVQ
                     EVQDEDMADADSDEEPAVNGADSDESEDESPKKKSKKDSELEKLAEKAGLSLKRYKRKL
                     ERGEIEFDAAGNPSAVSKKDIKKAKKEAKKSSKGEEKKRKRSDDNEDADGKKKKKKRDD
                     "

作者有话说：在生物信息领域，还有很多其他常用的生物信息格式，例如与GBK文件的功能类似的KEGG文件（本文没有收录，可通过链接查询：KEGG）。其他生物信息格式如SAM、BAM、fq等等，会在一些序列比对软件和生物组学分析中使用到。对此类文件的解析相当成熟，对其中的内容可以查询更具体的教程或者交给解析软件。本文提到的PDB，FASTA文件是最常用的文件，希望能有一些帮助。