swissprot评论区_【分享】SWISS-PROT简介

最新推荐文章于 2024-07-18 18:56:23 发布

可可子姐姐教英语

最新推荐文章于 2024-07-18 18:56:23 发布

阅读量2.5k

点赞数 1

文章标签： swissprot评论区

本文链接：https://blog.csdn.net/weixin_29505425/article/details/113013160

版权

SWISS-PROT 数据库是最齐全的注释精炼的蛋白序列库，建立于1986年，1987年起由日内瓦大学(University of Geneva)医学生物化学系和 EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。

进入SWISS-PROT全文检索

一、SWISS-PROT蛋白质序列库的特点：

SWISS-PROT由EMBL核苷酸序列库翻译而来，附件TrEMBL数据库含有126,995条蛋白质序列，包括34,178,645个氨基酸残基。每条蛋白质序列条目按照各种数据行的格式书写排列。该数据库的四大特点是：

1.注释精炼，条理分明:

每个序列条目由核心数据(Core Data)和注释数据(Annotation)组成。核心数据包括序列、参考文献和序列的生物来源，而注释数据则描述了：①蛋白质的功能；②蛋白质的翻译后加工修饰，如糖基化(Carbohydration)、磷酸化(Phosphorylation)、乙酰化(Acetylation)、GPI锚定(GPI-anchor)等；③结构域( Domains)和结合位点(Binding Sites)，如钙结合区(Calcium Binding Regions)、ATP结合位点(ATP-Binding Sites)、锌指结构域(Zinc Fingers)、同源盒(Homeobox)、Kringle等；④二级结构，四级结构； ⑤和其他蛋白的序列相似性(Sequence Similarity)；⑥相关疾病(Associated Diseases)和序列变异( Variants)等。

数据库中注释数据主要包含在注释数据行(Comment Lines,CC)，特征数据栏(Feature Table, FT)和关键词(Keyword Lines,KW)中，大多数注释按主题(Topics)分类。

2.广泛收集文献资料，尽量避免重复查询:

每个条目包含了尽可能多的相关文献资料信息，加以综合集中，如出现观点不一致的，则在特征表(Feature Table)中标明。

3.与其他数据库兼容并蓄，建立相互参照连接:

SWISS-PROT与25种数据库建立相互参照联系，如蛋白质三级结构库 PDB 、人类基因孟德尔遗传数据库(MIM) 、蛋白质类型和位点库 (PROSITE) 等，可直接进入其他数据库的相关条目，这种广泛而实用的数据库网络联系赋予SWISS-PROT在数据库中的中心地位和数据聚焦功能。

4.附有索引文件及相关说明:

SWISS-PROT配备多种索引文件和相关说明，并且不断更新。

二、SWISS-PROT数据格式

SWISS-PROT每一个数据条目包含一个蛋白质前体形式的序列，不包括成熟蛋白中不存在的N端起始蛋氨酸，分为标准数据(Standard Data)和初级数据(Preliminary Data)两类，并附有数据尚不够完整的TrEMBL数据库。序列条目格式与EMBL数据库基本相同，由数据行排列组成，人或计算机均能读取。举例如下：

SWISS-PROT 数据记录(Entry)详解：

每条蛋白质序列条目按照各种数据行的格式书写排列。

1.ID (IDentification)　标识

1.1 记录名 (Entry-name)X_Y　X代表蛋白质名称的记忆码，至多4位；Y代表蛋白质的生物来源，至多5位，一般前3位是属名，后2位是种名。常见普通生物以自释码表明来源，如HUMAN，YEAST等，病毒例外，以临时码代替。

如PDI_YEAST ,PDI代表Protein Disulfide Isomerase(蛋白质二硫键异构酶)；YEAST代表它来源于Yeast(酵母)，属于自释码。

FER_HALHAFER代表ferredoxin铁还原蛋白；HALHA表明其生物来源为Halobacterirn halobium(海洋嗜盐菌，HAL代表嗜盐菌层Halobacterium，HA代表海洋生物Halobium)。

1.2 数据类型 (Data class)

分标准(Standard)数据和初级(Preliminary)数据两类。数据达不到SWISS- PROT标准的属于初级数据。

1.3 分子类型 (Molecular type) 在SWISS-PROT数据库，分子类型均为PRT，代表蛋白质(PRoTein)。

1.4 分子长度(Length of the molecule) ID数据行的最后一项是序列的氨基酸残基数目。

2.AC (Accession number) 蛋白质注册号

由于数据的合并与增删，一个记录可能有几个注册号，以第一个注册号为准；但一般情况下，一个记录只有一个注册号。

3.DT (Date) 记录日期或最后一次更新的日期

格式为DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(发行号，记录缘由)记录缘由分为创建、序列更新和其他内容更新三种。

4.DE (DEscription) 描述

包含蛋白质序列的描述性信息，无固定格式。

5.GN (GeneName)基因名称

格式为

GN NAME1[AND/OR　NAME2…]

多个基因编码同一个蛋白时，同义名称的基因间以 OR 相隔；不同基因编码蛋白质的不同亚基时，基因之间以 AND 相隔。

6.KW (KeyWord)关键词

可用于蛋白质功能，结构或其他范畴的蛋白质序列索引。

7.OS (Organism Species)生物种属

表明序列的来源，通常采用拉丁种属名，括弧中继以英文名。如：

OS 　SACCHARMYCES CEREVISIAE(BAKER'S YEAST)表示：生物来源为酵母

OS 　HOMO SAPIENS(HUMAN)表示：生物来源为人

8.OG (OrGanelle)细胞器(细胞内小器官)

表明基因编码蛋白的来源或定位，如细胞内的线粒体，叶绿体或质粒等。

9.OC (Organism classification)生物分类

以树状分类的从上至下的格式列出，最普遍的类目列在最前面。

10.RN，RP，RC，RX，RA，RL 参考数据

RN (Reference Number) 　　参考号

在本记录中的参考文献的排号

RP (Reference Position)　参考性质

文献作者的工作性质和范围

RC (Reference Comment)　　相关内容

文献相关内容(可选数据行)

RX (Reference Cross-reference) 　交互参照

用来表示题录型数据库(Bibliographic database)中的标识号，一般是MEDLINE数据库的标识号。如：

RX 　MEDLINE；　91001972

RA (Reference Author)　　文献作者

RL (Reference Location)　参考文献来源，包括几种：

杂志：　注明杂志缩写，卷次，页码及发表日期(年)；

书：　　注明书名，版次，卷次，编号，页码，出版及发表日期(年)[书名前冠以(IN)字样]；

未出版物：　示“UNPUBLISHED”字样；

论文(Thesis)：冠以“THESIS”标记，注明时间(年)，研究所，国家；

专利(Patent)：注明专利号，日期；

直接递交序列(submissions)：注明递交年月及数据库。

11.DR (Database cross-Reference) 参照数据库，格式为

DR　DATA_BANK_IDENTIFIER；PRIMARY_IDENTIFIER；SECONDARY_ IDENTIFIER

包含数据库缩写名，第一标识号(Primary Identifier)，第二标识号(Secondary Identifier,为补充信息)。

12.FT (Feature Table) 特征表

提供简洁精炼的数据注释，描述了序列的位点及作用区域。一般情况下列出翻译后修饰、结合位点、酶活性位点和局部二级结构等其他特征。每一特征数据行按关键词、残基起始序号区域及简扼的描述内容组成。

13.SQ (SeQuence header)　序列题头

列出蛋白质的序列长度(氨基酸数目)，分子量(MW)，CRC32序列值