【生信MOOC】生信数据库2

最新推荐文章于 2025-03-21 13:18:13 发布

朝荣

最新推荐文章于 2025-03-21 13:18:13 发布

阅读量4.1k

点赞数 5

分类专栏：生物信息学文章标签：蛋白质数据库生物信息学生信数据库

本文链接：https://blog.csdn.net/weixin_40695088/article/details/123257226

版权

生物信息学专栏收录该内容

20 篇文章

订阅专栏

【生信MOOC】生信数据库2

文章的文字/图片/代码部分/全部来源网络或学术论文，文章会持续修缮更新，仅供大家学习使用。

【生信MOOC】生信数据库2

1、一级蛋白质序列数据库：UniProt 数据库

2、一级蛋白质结构数据库：PDB数据库

3、二级蛋白质结构数据库：结构域家族数据库Pfam

4、二级蛋白质结构数据库：结构分类数据库CATH

5、二级蛋白质结构数据库：结构分类数据库SCOP2

6、专项数据库：京都基因与基因组百科全书KEGG

首先，我们回忆一下数据库的几大类型，上一篇blog【生信MOOC】生信数据库1_梦里是碗妹的博客-CSDN博客

主要介绍了核酸数据库，这次主要介绍蛋白质数据库和一些专用数据库。

1、一级蛋白质序列数据库：UniProt 数据库

一级蛋白质数据库里存放的都是通过实验方法直接获得的基础数据。

分为：蛋白质序列数据库&蛋白质结构数据库。

主要包含三大蛋白质序列数据库，Swiss-Prot，TrEMBL和PIR，这三个数据库共同构成UniProt数据库。

下面这张slide介绍了uniport数据库的几个层次，我们最常用的就是UniProtKB下的Swiss-Prot数据库。

打开uniprot的主页，可以看到TrEMBL数据库里存储的序列数量远远大于Swiss-Prot中的。TrEMBL是自动注释的，没有经过检查，而Swiss-Prot是人工注释的，并且经过检查。

Entry，是蛋白质序列在UniProtKB数据库中的检索号。

Entry_Name，是检索名，检索号与检索名平行运行，都是一条序列在数据库中的唯一标识，两者作用相同，只是写法不同。

加星文档图标，有加星文档图标的是Swiss-Prot中的数据，没有的是TrEMBL里的。

Proteinnames 是蛋白质的名字。

Genenames 是编码这一蛋白质的基因的名字。

Organism 是所属物种。

Length 是蛋白质序列的长度。

UniProtKB中的数据库记录分成几个部分，左侧是注释标签，点击其中某一个标签可以直接跳转到该部分注释。

Function，功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知dUTPase是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源。

Names&Taxomomy 给出了蛋白质的各种名字，包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。

Subcellularlocation：提供蛋白质亚细胞定位（subcellularlocalization）的信息。成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能。

蛋白质的亚细胞定位：蛋白质在细胞内不同组分中的定位。

亚细胞定位对蛋白质的生理功能有着直接的影响。处于合适的亚细胞定位的蛋白质才能行使其正常的功能。目前，研究亚细胞定位的数据来源基本都是Swiss-Prot数据库。

Pathology&Biotechnology：提供蛋白质突变或缺失导致的疾病及表型信息。比如99位的丝氨酸会突变成丙氨酸从而导致磷酸化的缺失，相关具体研究可参考注释来源文献。

PTM/Processing：提供蛋白质翻译后修饰或翻译后加工的相关信息。比如信号肽在蛋白质到达指定位置之后要被剪切掉，有些氨基酸位点上会发生乙酰化、甲基化、磷酸化等翻译后修饰。

Expression：提供了基因在mRNA水平上的表达信息，或者在细胞中蛋白质水平上的表达信息，或者在不同器官组织中的表达信息。

Interaction：提供了蛋白质之间相互作用的信息。包括UniProtKB中直接与这个蛋白质有两两相互作用的蛋白质序列的链接，以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。

Structure：提供蛋白质二级结构和三级结构信息。注意，只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库PDB的蛋白质才有结构注释。二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库PDB中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。

Family&Domains：提供蛋白质家族及结构域信息。这个蛋白质是属于dUTPase家族的。它有三个重要的区域用于和其他分子结合。此外还有与系统发生学数据库以及结构域数据库之间的链接。

Sequence：提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。这个蛋白质有两个异构体，一个线粒体型的，一个细胞核型的。所以会显示两条序列。FASTA按钮提供FASTA格式序列。

Cross-references：列出了所有通往其他含有该蛋白质信息的数据库的链接。

Publications：列出了有关这个蛋白质已发表的所有文献的信息。

Entryinformation：提供有关这条数据库记录的录入信息，外加一个免责声明。

Miscellaneous：杂项，包含任何无法归入前几项的内容。

SimilarProteins：在UniRef数据库里找到与该蛋白质在序列水平上相似的其他蛋白质，并按相似度高低分组。如上节课所讲，凡是名字里有ref的数据库都是非冗余数据库，UniRef亦是如此，它属于UniProt数据库的第二个层次。

网页版的数据库记录也可以像GenBank一样保存成纯文本格式的本地文件。这种文本格式的数据库记录每一行都有一个两个字母组成的条目索引，用以说明这一行记录的是什么内容。条目索引所代表的具体内容可以参见下表。

2、一级蛋白质结构数据库：PDB数据库

蛋白质的结构可以分为四级。

一级结构也就是所谓的氨基酸序列。

二级结构是α螺旋和β折叠等。

三级结构是蛋白质的三维空间结构。

四级结构是几个蛋白质分子的复合体结构。

蛋白质结构数据库PDB（http://www.rcsb.org）是全世界唯一存储生物大分子3D结构的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的3D结构才会被收入其中。

PDBID，数据库的检索号，是由字母和数字组成的四位编号。一个结构对应一个PDBID，而不是一个蛋白质对应一个PDBID，因为同一个蛋白质在PDB数据库中可以有很多个结构。他

网页上的信息都是关于这个结构的基本描述以及解析结构所用的实验参数。真正的结构信息要从Downloadfiles里面下载。结构信息存储在PDB格式的一个纯文本文件里，这种文件叫做PDB文件。PDB文件都是以PDBID命名，以“.PDB”为后缀，可以用记事本打开。

第一部分：头信息	HEADER	蛋白质结构的基本信息描述，包括分子类别，存储日期，PDBID
	TITLE	结构的标题
	COMPND	对结构中各个分子的描述。可以看出3H6X这个结构是由三条链形成的三聚体结构。
	SOURCE	结构中所包括的每一个分子的实验来源。
	KEYWDS	用于数据库搜索的关键词
	EXPDTA	测定结构所采用的实验方法。PDB中绝大部分结构都是通过X射线衍射法测定的，少数是核磁共振法，极少数是使用包括电子显微镜在内的其他方法测定的。
	AUTHOR	作者信息
	REVDAT	历史上曾经对该数据库记录进行过的修改。
	JRNL	发表结构的文献信息。
	REMARK	无法归入其他部分的注释。
第二部分：一级结构信息（也就是氨基酸序列）	DBREF	该蛋白质在蛋白质序列数据库里的检索号等信息。
	SEQRES	氨基酸序列。
	MODRES	对标准残基上的修饰，比如第56号位置的蛋氨酸被硒代蛋氨酸所取代。
第三部分：非标准残基信息	HET	非标准残基及位置。
	HETNAM	非标准残基的化学名称。
	FORMUL	非标准残基的化学式。
第四部分：二级结构信息	HELIX	位于螺旋结构上的氨基酸所在位置及所属链。
	SHEET	位于折片结构上的氨基酸所在位置及所属链。
	TURN	位于转角结构上的氨基酸所在位置及所属链。
	Link	残基间的化学键。比如106号氨基酸上的C与107号氨基酸上的N之间的化学键是肽键！键长1.32埃。除了肽键还可能有氢键，二硫键等等。
第五部分：实验参数信息	CRYST1	晶胞参数。
	ORIGXn	直角-PDB坐标。
	SCALE*	直角部分结晶学坐标。
第六部分：3D坐标信息	ATOM	PDB文件中最重要的，也是篇幅最长的就是3D坐标部分。每一行是一个原子（图1）。包括原子号，原子名，这个原子所在氨基酸的名字，属于哪条分子链以及所在氨基酸的编号。后面这三个数就是这个原子在三维空间里的坐标，X轴Y轴和Z轴。通过这个3D坐标，蛋白质的每一个氨基酸上的每一个原子都能找到自己的空间位置。所有原子按照各自的空间位置站好，就构成了整个蛋白质的空间结构。它存储的实际上是原子的3D坐标。
	CONECT	原子间化学键连接信息。
	MASTER：	版权拥有者信息。
	END	结束符。

3、二级蛋白质结构数据库：结构域家族数据库Pfam

二级蛋白质数据库都是在一级数据库的基础上分析加工出来的。

Pfam数据库（http://pfam.xfam.org/）是一个蛋白质结构域家族的集合，包括了一万六千多个蛋白质家族。

蛋白质一般是由一个或多个功能区域组成，这些功能区域通常称作结构域（domain）。在不同的蛋白质中结构域以不同的组合出现，形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义。

DomainOrganization里可以看到目前有多少蛋白质拥有TIR结构域，以及TIR结构域和其他结构域之间的组合搭配关系。

Structure会列出目前所有包含TIR结构域的蛋白质结构，以及他们在序列数据库UniProt和结构数据库PDB中的链接。同时，也提供JSmol在线结构查看工具。

4、二级蛋白质结构数据库：结构分类数据库CATH

根据结构域的空间特征可以对结构域进行分类。CATH和SCOP是两个重要的蛋白质结构分类数据库。

CATH这个数据库（http://www.cathdb.info/）的名字C、A、T、H是数据库中四种结构分类层次的首字母。也就是，所有蛋白质结构域在CATH中被首先分成4种CLASS，这就是C。四种CLASS分别是全α型，全β型，α+β型，低二级结构型。比如图1中第一行这三个蛋白质，很显然左边是全α的，右边是全β的，中间是α+β的。

每一个Class中的结构域又被具体分为不同的architecture，也就是A。

A这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。

比如α+β这个class下的结构可以进一步分为桶状的，三明治状的，还有滚轴状等Architecture。

每种Architecture里的结构域，又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的topology，也就是T。

最后再通过序列比较以及结构比较确定同源性分类，划分出不同的homologoussuperfamily，也就是H。

这样每个结构从粗到细，即从A到H，会有四个层次的分类。

注意结构分类是以结构域为单位进行的，而不是针对整个蛋白。所以PDB中的一个蛋白质结构可能对应CATH中多个结构域分类。

CATH在分类时既使用计算机程序，也进行人工检查。

CATH为每一层的每一种结构分类命名，并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。第一个数字是C这一层的分类代码，第2个数字是A这一层的分类代码，第3个数字是T这一层的分类代码，第4个数字是H这一层的分类代码。

目前CATH已为PDB数据库中10多万个蛋白质结构所涉及的30多万个结构域进行了结构分类，这些分类可以归入两千七百多个蛋白质超家族中。此外，CATH-Gene3D还为超过500万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D里的信息为绝大多数还未解析3D结构的蛋白质提供了重要的功能研究依据。

搜索条输入3H6X，这是在PDB数据库里查看过的dUTPase的结构。结果显示dUTPase蛋白的结构分类代码是2.70.40.10。点击这个分类代码，可以获得各层次具体的结构分类信息以及各种结构相关分析信息。结果页面的下半部分还提供聚类图。

CATH把所有拥有2.70.40.10结构分类的结构域，根据他们的序列相似度不同，进行了聚类。不同深浅的圈代表不同的序列相似度。通过这张图，可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近。

此外，CATH还从2.70.40.10这个结构分类里挑出了19个有代表性的结构域，并且把他们的3D结构叠加在了一起（图3）。从这个图上，可以看到这个结构分类的总体特征以及差异产生的位置。

5、二级蛋白质结构数据库：结构分类数据库SCOP2

SCOP数据库与CATH类似，也属于蛋白质结构分类数据库，但SCOP的分类原则更多考虑蛋白质间的进化关系，而且分类主要依赖于人工验证。

和CATH一样，SCOP的结构分类也基于四个层次。

第一层也叫Class，也是基于二级结构成分分类。

Class之下是Fold，主要考虑结构的空间几何关系。

往下是Superfamily，基于远源的蛋白质进化关系分类。

最后是Family，基于近源的蛋白质进化关系分类。

注意SCOP和CATH里面都有提到Superfamily这个词，但两者的含义并不相同。CATH里Superfamily是指的从C到A到T再到H这样四层的一个精细结构分类。而Scop中，Superfamily是结构分类的第三个层次的名称。

SCOP2的主页上也有搜索条，可以查看某一个PDB结构的结构分类。图1搜索结果中的第2到第5条，就是该蛋白质结构的四层分类。第一层Class，第二层Fold，第三层Superfamily，第四层Family。第一层Class之上是SCOP数据库的根。第4层family之下是这个蛋白质的名字，再往下是所属物种。虽然从这个谱系上看有7个层次，但实际上真正的结构分类只有中间四层。

6、专项数据库：京都基因与基因组百科全书KEGG

KEGG，全称京都基因与基因组百科全书（http://www.genome.jp/kegg）。它是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库。

这些子库中，KEGGPATHWAY数据库包含了大量物种的代谢与生物信号传导通路信息。Pathway数据库下又分为7个部分：

1）Metabolism，2）GeneticInformationProcessing，3）EnvironmentalInformationProcessing，4）CellularProcesses，5）OrganismalSystems，6）HumanDiseases，7）DrugDevelopment。

其中Metabolism代谢通路这部分，又具体分为几个专题：1）Global/overview，2）Carbohydrate，3）Energy，4）Lipid，5）Nucleotide，6）Aminoacid，7）Otheramino，8）Glycan，9）Cofactor/vitamin，10）Terpenoid/PK，11）Othersecondarymetabolite，12）Xenobiotics，13）Chemicalstructure。